2014-07-01 27 views
0

看起來,相同的節點也出現在死鏈表和活節點列表中以及HDFS網頁中。 如何擺脫這些「死」的節點?Hadoop 2.2中的死鏈和活節點列表中的相同節點

我剛剛將我們的480個節點羣集上的Apache Hadoop從版本1.2.1升級到2.2.0。 一切運作良好。塊的數量,舊版本和新版本中的文件相同。 FSCK報告沒有問題。

我有480個活節點。奇怪的是,我有23個死亡節點顯示在hdfs管理頁面上。 不知何故,這23個死亡節點也可以在活節點列表中找到。它們在兩個列表中都有相同的名稱和IP(活的和死的)。

由於hadoop dfs admin -report結果我得到:

Datanodes available: 480 (503 total, 23 dead) 

這是一個死節點的一份報告統計:

Configured Capacity: 0 (0 B) 
DFS Used: 0 (0 B) 
Non DFS Used: 0 (0 B) 
DFS Remaining: 0 (0 B) 
DFS Used%: 100.00% 
DFS Remaining%: 0.00% 
Last contact: Thu Jan 01 01:00:00 CET 1970 

我已經檢查和數據管理部軟件只有一個實例運行在這23個節點上。 如果我從停止列表中存在的實時列表中停止一個datanode,那麼在10分鐘後,該節點將在死列表中出現兩次。 如果我再次啓動datanode,該節點將出現在活動列表中,但死亡列表中仍存在一個實例。 我檢查了namenode日誌,但沒有發現任何錯誤。我也多次重啓Hadoop。每次這些相同的23個節點出現在死亡列表中。

我現在看到問題是網絡拓撲。我已經使用

./hdfs dfsadmin -printTopology

命令,並認識到,23個人死亡節點與/默認機架和/ rack6以及相關聯。我有480個節點的12個機架。

但仍然我的網絡拓撲解析器工作正常,所以我不明白爲什麼節點也與默認機架相關聯。

回答

0

感謝您的CONF。 我們已經將羣集升級到Apache Hadoop 2.5並且虛假的死亡節點已經消失。