2015-03-03 29 views
0

我無法理解Hadoop的這個說法 - 權威指南第三版(第31頁)「有時候,然而,所有主機的地圖任務的輸入分配的HDFS塊副本的三個節點其他正在運行的地圖任務,使作業調度會尋找一個免費的地圖插槽中的節點在同一個機架中的一個塊。很偶然的,甚至這是不可能這樣用一個斷架節點導致的機架間網絡傳輸「。 ,地圖任務的輸入分裂正在運行的其他地圖的任務

我的問題是

1)我無法得到這個說法

2)的完整的上下文,這是否意味着如果輸入分配被其他地圖的任務accquired說(運行圖任務) ,它說(等待地圖任務)會尋找其他副本相同的拆分?將「等待Map任務」不使用「運行圖任務」的輸出,如果映射邏輯在運行圖任務和等待列表任務

回答

0

正如你可以在同一本書中進一步讀取相同的(我有一個副本在我身邊),對帶寬有很大的關注。因此,數據節點的映射任務最接近的,更好的性能將交付。

您還可以閱讀在同一本書,那的Hadoop本身並不想在網絡拓撲結構(有這樣的配置一章),

有關問題2) 理想分割的大小應與HDFS塊的大小相同。有時,文件無法splited(如果選中的壓縮,你會看到一定的壓縮算法不允許分割),因此映射器將獲取幾個街區。而且,這些塊可以分佈在多個機架上。

相關問題