需要使用Hadoop幫助理解小數據集的MR數據處理。需要幫助理解使用Hadoop的小數據集的MR數據處理
請考慮以下假設的情況:
1) Input Data to be processed : 100 MB
2) Block Size : 64 MB
3) Replication Factor : 2
4) Cluster Size : 2 (Data Node 1 and Data Node 2)
在數據節點中的數據1將被分割爲64MB + 36MB(輸入數據的總100MB) 複製的數據將在數據節點2作爲井(64 MB + 36 MB)
問:
請了解如何將64 MB和36 MB的數據進行處理幫助嗎? 只能從DataNode1處理整個數據。如果DataNode1出現故障,DataNode2將僅用於備份?
或
DataNode2是否也用於處理數據? 如果需要更多解釋,請告訴我。