僞分佈式數字地圖和減少任務

我是Hadoop的新手。我已經成功配置了僞分佈式模式的hadoop設置。現在我想知道選擇地圖數量和減少任務的邏輯是什麼。我們指的是什麼？僞分佈式數字地圖和減少任務

謝謝

2013-05-07 LMHadoop

其實沒有。 mappers主要由no。由您正在使用的InputFormat創建的InputSplits和No。的減少者的否。您在地圖階段後獲得的分區。話雖如此，你還應該記住插槽的數量，每個從機可用，以及可用內存。但作爲一個經驗法則，你可以使用這種方法：

以無。的虛擬CPU * .75，這是沒有。您可以配置的插槽。例如，如果您有12個物理核心（或24個虛擬核心），則您將擁有（24 * .75）= 18個插槽。現在，根據您的要求，您可以選擇要使用的映射器和縮減器的數量。有18個MR插槽，你可以有9個映射器和9個縮減器或12個映射器和9個縮減器，或者你認爲可以與你合作的任何東西。

HTH

來源

2013-05-07 09:06:29 Tariq

你不能一概而論如何映射器的數量/減速將被設定。

映射器數量： 您不能將映射器數量明確設置爲某個數（有些參數可以設置它，但它不會生效）。這是由hadoop爲您給定的一組輸入創建的輸入拆分的數量決定的。您可以通過設置mapred.min.split.size參數來控制此設置。有關更多信息，請參閱InputSplit部分here。如果由於大量小文件而產生大量映射器，並且想要減少映射器的數量，那麼您將需要合併來自多個文件的數據。閱讀：How to combine input files to get to a single mapper and control number of mappers。

從wiki頁面引用：

地圖的數量通常是由DFS塊的數量輸入文件驅動。雖然這會導致人們調整DFS塊的大小來調整地圖的數量。地圖的平行度的正確水平似乎大約爲10-100地圖/節點，儘管我們已經將它用於非常cpu光地圖任務的至300左右。任務設置需要一段時間，所以最好是地圖至少需要一分鐘才能執行。

實際上控制地圖的數量是微妙的。 mapred.map.tasks參數僅僅是地圖數量的InputFormat提示。默認的InputFormat行爲是將總數爲的字節拆分爲正確數量的片段。但是，在默認情況下，輸入文件的DFS塊大小將被視爲輸入拆分的上限。分割大小的下限可以是，通過mapred.min.split.size設置。因此，如果您希望10TB的輸入數據爲，並且具有128MB的DFS塊，則最終將獲得82k個地圖，除非您的mapred.map.tasks更大。最終，InputFormat決定了地圖的數量。

也可以使用JobConf的conf.setNumMapTasks（int num）手動增加地圖任務的數量。這可以用於增加地圖任務的數量，但不會將數字設置爲低於Hadoop通過分割輸入數據所確定的數量。

數減速器： 可以明確設置減速機的數量。只需設置參數mapred.reduce.tasks。有guidelines設置這個數字，但通常減少的默認數量應該足夠好。有時需要一個單一的報表文件，在這些情況下，您可能要減速的數量被設置爲1。

再從維基報價：

減少了正確的號碼似乎是0.95或1.75 *（節點* mapred.tasktracker.tasks.maximum）。在0.95處，所有的縮減可以立即啓動並開始傳輸地圖輸出，如地圖完成。在1.75更快的節點將完成他們的第一輪減少和發起第二輪減少做一個更好的工作的負載平衡。

目前減少的數量由用於輸出文件的緩衝器大小（io.buffer.size * 2 * numReduces < < HEAPSIZE）限定於大致1000。這將在某些時候被固定，但直到它提供了一個非常堅定的上限。

減少的數量還控制着輸出目錄中的輸出文件的數量，但通常這並不重要，因爲下一步的 map/reduce步驟會將它們分割成更小的分割圖。

減少任務的數量也可以通過JobConf的conf.setNumReduceTasks（int num）以與地圖任務相同的方式增加。

來源

2013-05-07 09:22:38 Amar

僞分佈式數字地圖和減少任務

回答

相關問題