我有一個運行hadoop 0.20.203.0的4節點(master + 3 slave)集羣。每隔幾天,datanode就會在主服務器上報失效。在從服務器上,一切正常,datanode進程仍在運行,儘管日誌中不再有任何請求,但在日誌中沒有任何可疑內容。在主設備上,日誌顯示datanode心跳已丟失。Hadoop數據節點停止報告
唯一的解決方案是手動停止datanode,然後再次啓動它。幾分鐘後,datanode再次報告爲活動。
有沒有其他人經歷過這個?如果是的話,原因是什麼,解決方案是什麼?
聽起來像你可能會遇到網絡硬件故障。你一次或多次失去一個奴隸嗎?另外,您是否在EC2或其他虛擬化環境中? –
在我們自己的服務器上運行直接硬件。什麼讓你知道它可能是網絡硬件相關的線索?我可以打開某種日誌記錄來判斷datanode是否認爲它正在發送心跳?數據節點能否處於一種糟糕的狀態,並放棄嘗試發送心跳信號? –
對不起,忘了提及,我們一次失去一個。希望我們的監測能夠注意到它,並在下一個做同樣的事情之前重新啓動它。 –