我有洗牌開始時間的問題。什麼時候洗牌開始在Hadoop
讓你說我有2個mappers和1個reducer。每個映射器都將生成輸出map1和map2。 map1和map2存儲在相應datanode的臨時磁盤中。
現在減速機應該等待map1和map2的輸出嗎?換句話說,什麼時候洗牌開始?只要map1完成或它必須等待map2完成?
我正在傾聽在減速機上洗牌的流量,我無法找到任何交通,但控制檯輸出顯示已完成減速的70%(大約)。
14/12/18 17:45:55 INFO mapred.JobClient: map 97% reduce 22%
14/12/18 17:45:58 INFO mapred.JobClient: map 98% reduce 22%
14/12/18 17:45:59 INFO mapred.JobClient: map 99% reduce 22%
14/12/18 17:46:07 INFO mapred.JobClient: map 100% reduce 22%
14/12/18 17:46:12 INFO mapred.JobClient: map 100% reduce 67%
14/12/18 17:46:15 INFO mapred.JobClient: map 100% reduce 71%
我看到洗牌後的交通流量進入此點後。
我在這裏有點困惑。減速機約70%的工作是什麼? !
感謝
看看這個SF問題:http://stackoverflow.com/questions/11672676/when-do-reduce-tasks-start-in-hadoop – Ashrith 2014-12-19 06:03:17