1
我是hadoop和map縮小模型的新手,並試圖讓概念正確。mapreduce輸入分割數量和mapper數量之間的關係hadoop
我首先想要了解輸入分割的概念和映射器的數量是否正確。
我正在運行mapreduce wordcount程序,以下是我的問題。
1)如何確定輸入分割? 我在2個不同大小的輸入的同一集羣上運行相同的程序。
file 1 : size 48mb. => i got number of splits:1 in log.
file 2: size 126mb => number of splits : 1
file 2 : size 126mb (executed in eclipse IDE) => number of splits: 4
不應該是126 MB文件的分割數等於2嗎?因爲我已經讀過,塊的大小是64 MB。所以它必須創建2個分割。
2)如何確定mappers的數量?我試圖通過以下行來獲取mappers的數量以瞭解mapreduce的工作流程。
conf.get("mapred.map.tasks")
它每次返回2。
3)分割數量和映射器數量之間是否有任何關係?
4)做以上事情取決於集羣?僞分佈式和其他集羣還是不同?
謝謝。