我剛開始與加繆。如何決定camus的mappers的數量?
我打算每隔1小時運行一次加繆。我們每小時左右~消息,平均消息大小爲4KB
(我們在卡夫卡有一個單獨的主題)。
我第一次嘗試使用10
映射器,複製一小時的數據需要花費大約2小時,並創建了大小約爲7GB的10個文件。
然後我試圖300
映射器,它把時間降到〜1小時。但它創建了11個文件。後來,我用150
mappers試了一下,花了大約30分鐘。
那麼,我該如何選擇映射器的數量呢?另外,我想在hadoop中創建更多的文件,因爲一個文件的大小已經增加到7GB。我必須檢查什麼配置?