Hadoop數據節點停止報告

我有一個運行hadoop 0.20.203.0的4節點（master + 3 slave）集羣。每隔幾天，datanode就會在主服務器上報失效。在從服務器上，一切正常，datanode進程仍在運行，儘管日誌中不再有任何請求，但在日誌中沒有任何可疑內容。在主設備上，日誌顯示datanode心跳已丟失。Hadoop數據節點停止報告

唯一的解決方案是手動停止datanode，然後再次啓動它。幾分鐘後，datanode再次報告爲活動。

有沒有其他人經歷過這個？如果是的話，原因是什麼，解決方案是什麼？

來源

2012-01-23 Marc Harris

聽起來像你可能會遇到網絡硬件故障。你一次或多次失去一個奴隸嗎？另外，您是否在EC2或其他虛擬化環境中？ –

在我們自己的服務器上運行直接硬件。什麼讓你知道它可能是網絡硬件相關的線索？我可以打開某種日誌記錄來判斷datanode是否認爲它正在發送心跳？數據節點能否處於一種糟糕的狀態，並放棄嘗試發送心跳信號？ –

對不起，忘了提及，我們一次失去一個。希望我們的監測能夠注意到它，並在下一個做同樣的事情之前重新啓動它。 –