假設有3個從節點和一個複製因子爲2的主節點的hadoop集羣。進一步假設文件F被分成3個塊A,B和C,它們的存儲方式如下: 從站1:A,B 從站2:A,C 從站3:B,CHadoop MapReduce負載平衡
另外,假設你踢地圖reduce作業來計算F中的字數並且每個塊被拆分3倍。
我的問題是如何分佈映射器,以便他們優化最大生產力?一種可能性: 從1:3映射器對一個 從工作2:3的製圖員可以基於C 從3工作:3映射器第B
但如何Hadoop的避免以下工作? 從1:6映射器(第B 3 A,3) 從屬2:空閒 從3:3映射器基於C