2016-07-15 46 views

回答

0

我讀過映射器的#是基於下式確定:(輸入由塊大小劃分的大小)。 Hadoop 2的塊大小爲128 MB。

因此,我假設您可以將該分區中的文件大小除以128 MB。

0

所以這取決於兩個因素:

  1. 默認情況下,非分裂式的文件,Hadoop的運行將每個輸入文件一個地圖的任務。所以如果你的分區文件夾有100個輸入文件,它將運行100個映射器。例如,這將是製表符分隔的文本文件的默認值。

  2. 如果您的文件是可拆分的,它將根據您的塊大小設置進行拆分。這要求您使用序列文件等可拆分文件格式。

如果你只是使用簡單的平面文件,這是最容易推理的。希望有所幫助。

+0

感謝您的幫助馬修 –

+0

不客氣!使用常規的MapReduce作業,您可以指定Mappers和Reducers的數量,但配置單元是自己的事情,因爲它運行多個MapReduce作業。 –

相關問題