2015-11-05 21 views
0

我剛開始與加繆。如何決定camus的mappers的數量?

我打算每隔1小時運行一次加繆。我們每小時左右~消息,平均消息大小爲4KB(我們在卡夫卡有一個單獨的主題)。

我第一次嘗試使用10映射器,複製一小時的數據需要花費大約2小時,並創建了大小約爲7GB的10個文件。

然後我試圖300映射器,它把時間降到〜1小時。但它創建了11個文件。後來,我用150 mappers試了一下,花了大約30分鐘。

那麼,我該如何選擇映射器的數量呢?另外,我想在hadoop中創建更多的文件,因爲一個文件的大小已經增加到7GB。我必須檢查什麼配置?

回答

0

我已經找到最好的答案在此article

地圖的數量通常是由DFS塊輸入文件的數量驅動。它會導致人們調整自己的DFS塊大小來調整地圖的數量。

並行的地圖正確的水平似乎是圍繞10-100地圖/節點,雖然我們把它拿走了高達300 所以非常CPU輕map任務。

如果地圖至少需要一分鐘才能執行,那麼最好。

所有依賴於CPU的電源你有,應用程序的類型 - IO綁定(重讀/寫),或在您的Hadoop集羣CPU綁定(重處理)和節點數目。

除了在全局級別設置映射器和縮減器的數量之外,還可以在覆蓋這些值。作業級別取決於作業需要處理的數據。

而在最後一兩件事:如果你覺得減少映射減速之間的IO傳輸,有效地結合分區程序使用它

0

它理論上應爲或比你的主題中的卡夫卡分區少。

這意味着,爲了更好的吞吐量,您的主題應該有更多的分區和相同數量的camus映射器

相關問題