知道mapper和reducer的用法

你有一個降低您的大部分數據的關鍵。如果大多數數據導致相同的縮減鍵，則該鍵的所有映射輸出都將轉到單個縮減器。如果添加更多減速器，您會發現其他減速器完成得非常快，但減速器仍然需要很長時間才能完成。如果在Pig JOIN期間發生這種情況，則可以使用USING 'skewed'子句解決此問題。
主要瓶頸是在地圖階段讀取數據並對其進行處理。你說你有550 GB的數據。你使用多少個mappers？他們需要多長時間才能完成？添加更多減速器只能加快洗牌和縮短階段。
您正在研究可用於減少任務的核心數量極少的小型羣集。如果您在計算機上設置了本地Hadoop集羣，則可能沒有超過1個或2個專用於減少任務的內核。因此，啓動更多減速器意味着那些額外的減速器必須等待CPU時間，並且不會更快地移動。

除了添加減速器之外，另一種使作業更快運行的方法是減少任何不必要的地圖輸出。所有映射輸出都寫入磁盤，然後分發給還原器，再次寫入磁盤。磁盤I/O非常緩慢，如果不需要大量數據，請在映射階段將其丟棄。例如，在Pig中，您可能只希望計算每個鍵的記錄數。在這種情況下，除鍵外的所有數據都應該丟失。

通常，映射器的數量是自動選擇的。如果你覺得mappers的數量太小，你可以使用一些技巧。例如，您可能會發現Pig在將輸入文件組合在一起過於積極，因此您只有一兩個映射器需要很長時間。在這種情況下，您可以將SET pig.maxCombinedSplitSize設置爲更大的數字。但通常，映射器的數量超出了你的控制範圍。

要使用的還原器的數量取決於您可以使用的資源（即一次可以使用多少個還原器？如果您的作業佔用了羣集中的所有還原器，很長一段時間？）和你的數據的性質（即它是否嚴重傾向於一個縮減密鑰？）。還要注意，每個reducer都有一個輸出文件，所以在某些情況下，更多reducer可能會有問題。

來源

2014-04-22 11:44:30

知道mapper和reducer的用法

回答

相關問題