當名稱節點在YARN中失敗時，作業狀態是什麼？

當作業正在羣集中運行時，如果突然NameNode失敗，那麼作業的狀態（失敗或失敗）是什麼？當名稱節點在YARN中失敗時，作業狀態是什麼？

如果失敗意味着誰在更新作業狀態？

這是如何在內部工作的？

來源

2015-12-30 Venkadesh Venkat

由於我沒有對它進行測試，因此我並不完全確定。但是啓動虛擬機併爲自己測試它並不會有什麼壞處。

namenode不處理作業的狀態，這就是紗恩正在做的事情。如果namenode不是HA並且它死了，你將失去與HDFS的連接（甚至可能會丟失數據）。紗線會默認嘗試重新接觸hdfs幾次嘗試，並最終超時並且失敗這項工作。

來源

2015-12-30 13:06:32 Havnar

備用Namenode將成爲活動Namenode並具有故障轉移過程。看看How does Hadoop Namenode failover process works?

紗線體系結構圍繞着Resource Manager, Node Manager and Applications Master旋轉。工作將繼續進行，但不會對namenode失敗產生任何影響。如果上述三個過程中的任何一個失敗，則根據各自的過程恢復進行作業恢復。

資源管理器恢復：

與啓用ResourceManger重啓，RM晉升（電流待機）爲活動狀態加載RM內部狀態，並繼續從以前的主動離開的地方儘可能多的操作儘可能取決於RM重啓功能。對於先前提交給RM的每個託管應用程序都會產生新的嘗試。

申請碩士恢復：

有關YARN（又名MR2）上運行的MapReduce，在MR ApplicationMaster發揮每個作業的JobTracker的作用。 MRAM故障恢復由屬性mapreduce.am.max-attempts控制。這個屬性可能是每個作業設置的。如果它的值大於1，那麼當ApplicationMaster死亡時，會有一個新的應用程序試圖啓動，直到最大嘗試次數。當新的應用程序嘗試啓動時，正在執行的任務將中止並重新運行，但完成的任務不會重新運行。

節點管理器恢復：

在恢復過程中，網管從狀態存儲加載應用程序的狀態。每個應用程序的狀態指示應用程序是否已完成。請注意，對於完成的應用程序，將不會啓動更多容器，但它仍可能正在進行日誌聚合。隨着每個應用程序的恢復，將創建一個新的Application對象並觸發初始化事件，以重新初始化NM中應用程序的簿記。

在所有這些階段，Job History扮演着關鍵角色。成功完成地圖&減少任務狀態將從作業歷史記錄服務器中恢復。此狀態有助於停止重新啓動成功完成的Map/Reduce任務。

看一看Resource Manager HA文章，Node Manager restart文章和YARN HA文章

來源

2015-12-30 16:03:06

當名稱節點在YARN中失敗時，作業狀態是什麼？

回答

相關問題