2014-05-12 69 views
1

我已經使用Cloudera管理器CDH4設置了3節點Hadoop集羣。在mapreduce模式下運行Pig作業時,相同數據集的時間比本地模式的時間加倍。這是一種預期的行爲? 還有任何文檔可用於mapreduce作業的性能調整選項嗎?豬本地vs mapreduce模式性能比較

非常感謝您的幫助!

回答

1

這可能是因爲你使用的是玩具的數據集和MapReduce的開銷比並行

0

一個良好的開端性能調整是從「編程豬」書"Making Pig Fly"章的益處更大。

0

另一個原因是,當您在-x本地模式下運行時,Pig不會執行與地圖縮減模式相同的jar編譯。對於小數據集和複雜的豬腳本,實際的jar編譯時間變得明顯。