需要幫助理解使用Hadoop的小數據集的MR數據處理

請考慮以下假設的情況：

1) Input Data to be processed : 100 MB 
2) Block Size : 64 MB 
3) Replication Factor : 2 
4) Cluster Size : 2 (Data Node 1 and Data Node 2)

在數據節點中的數據1將被分割爲64MB + 36MB（輸入數據的總100MB）複製的數據將在數據節點2作爲井（64 MB + 36 MB）

問：

請了解如何將64 MB和36 MB的數據進行處理幫助嗎？只能從DataNode1處理整個數據。如果DataNode1出現故障，DataNode2將僅用於備份？

或

DataNode2是否也用於處理數據？如果需要更多解釋，請告訴我。

是的，它會使用兩個datanodes。因此，mappers的數量將總是等於拆分的數量（除非您使用屬性或驅動程序代碼來限制它）。詳情請參閱this。

2015-01-10 07:18:09 SMA

這取決於。如果你有一個gzip文件作爲輸入，那麼無論它有2個塊，它將完全由單個節點上的單個映射器處理。如果您在兩個datanodes上都運行YARN NM，則它們有足夠的內存來啓動2個映射器任務，並且羣集很安靜（沒有其他任務正在運行），那麼很可能兩個映射器都將在同一節點上啓動。

2015-01-12 17:53:37 0x0FFF

回答