0
在我的申請,我有一個鏈接在一起的一系列5個Hadoop作業的順序使用恢復Hadoop作業流程
Job.waitForCompletion(false)
現在,Hadoop的文件中明確規定
...the onus on ensuring jobs are complete (success/failure) lies squarely on the clients
現在,如果我的作業客戶端程序崩潰,如何確保作業客戶端程序可以在重新啓動時在崩潰時恢復?有沒有辦法查詢JobTracker並獲得特定作業的句柄,然後檢查其作業狀態?
不是一個答案,但你應該看看http://incubator.apache.org/oozie/它的工作流程引擎,它允許你管理/從這樣 –
失敗如果Oozie的自身崩潰,會發生什麼恢復?它可以在重新啓動時從崩潰點恢復嗎? – cosmos
oozie使用通知url配置屬性 - 當每個MR作業完成時,作業跟蹤器通過此URL通知OOZIE。如果oozie崩潰,那麼一旦它重新啓動,您可以手動指示oozie在工作流程中的上一個作業完成後恢復該特定工作流程 –