看起來,相同的節點也出現在死鏈表和活節點列表中以及HDFS網頁中。 如何擺脫這些「死」的節點?Hadoop 2.2中的死鏈和活節點列表中的相同節點
我剛剛將我們的480個節點羣集上的Apache Hadoop從版本1.2.1升級到2.2.0。 一切運作良好。塊的數量,舊版本和新版本中的文件相同。 FSCK報告沒有問題。
我有480個活節點。奇怪的是,我有23個死亡節點顯示在hdfs管理頁面上。 不知何故,這23個死亡節點也可以在活節點列表中找到。它們在兩個列表中都有相同的名稱和IP(活的和死的)。
由於hadoop dfs admin -report
結果我得到:
Datanodes available: 480 (503 total, 23 dead)
這是一個死節點的一份報告統計:
Configured Capacity: 0 (0 B)
DFS Used: 0 (0 B)
Non DFS Used: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used%: 100.00%
DFS Remaining%: 0.00%
Last contact: Thu Jan 01 01:00:00 CET 1970
我已經檢查和數據管理部軟件只有一個實例運行在這23個節點上。 如果我從停止列表中存在的實時列表中停止一個datanode,那麼在10分鐘後,該節點將在死列表中出現兩次。 如果我再次啓動datanode,該節點將出現在活動列表中,但死亡列表中仍存在一個實例。 我檢查了namenode日誌,但沒有發現任何錯誤。我也多次重啓Hadoop。每次這些相同的23個節點出現在死亡列表中。
我現在看到問題是網絡拓撲。我已經使用
./hdfs dfsadmin -printTopology
命令,並認識到,23個人死亡節點與/默認機架和/ rack6以及相關聯。我有480個節點的12個機架。
但仍然我的網絡拓撲解析器工作正常,所以我不明白爲什麼節點也與默認機架相關聯。