2015-01-10 39 views
0

需要使用Hadoop幫助理解小數據集的MR數據處理。需要幫助理解使用Hadoop的小數據集的MR數據處理

請考慮以下假設的情況:

1) Input Data to be processed : 100 MB 
2) Block Size : 64 MB 
3) Replication Factor : 2 
4) Cluster Size : 2 (Data Node 1 and Data Node 2) 

在數據節點中的數據1將被分割爲64MB + 36MB(輸入數據的總100MB) 複製的數據將在數據節點2作爲井(64 MB + 36 MB)

問:

請了解如何將64 MB和36 MB的數據進行處理幫助嗎? 只能從DataNode1處理整個數據。如果DataNode1出現故障,DataNode2將僅用於備份?

DataNode2是否也用於處理數據? 如果需要更多解釋,請告訴我。

回答

0

是的,它會使用兩個datanodes。因此,mappers的數量將總是等於拆分的數量(除非您使用屬性或驅動程序代碼來限制它)。詳情請參閱this

0

這取決於。如果你有一個gzip文件作爲輸入,那麼無論它有2個塊,它將完全由單個節點上的單個映射器處理。如果您在兩個datanodes上都運行YARN NM,則它們有足夠的內存來啓動2個映射器任務,並且羣集很安靜(沒有其他任務正在運行),那麼很可能兩個映射器都將在同一節點上啓動。