2015-02-11 34 views
0

我正在使用Apache mesos和馬拉松。我有3個主節點和3個從節點。我配置了quorum 2的mesos。稍後,我發佈了一個JSON,用馬拉松運行一個作業,並且看起來都很好。爲什麼在法定人數丟失後,馬拉松不會終止工作?

然後我嘗試了兩個主節點的關機打破法定人數,在此之後,mesos註銷所有奴隸都期待好的,但是當我檢查的奴隸我發現開始作業繼續運行...... 它是正常的?我假設馬拉松在法定人數丟失後停止所有工作

回答

2

Mesos理念的一部分,特別是對於長時間運行的服務,一個或多個Mesos組件中的失敗應該不需要停止用戶應用程序。

如果從站關閉並且框架啓用了檢查點設置,執行程序驅動程序將在關閉執行程序/任務之前等待從站的--recovery_timeout(默認15分鐘)。爲了防止出現這種情況,請在您的框架上禁用點校驗(在Marathon中,只需在啓動馬拉松時設置--checkpoint=false)。另一方面,如果它只是關閉的Masters/ZKs,並且從屬設備仍在運行,從屬設備仍然可以監視任務並排隊狀態更新,所以任務可以保持活力。如果ZK失去法定人數,那麼沒有領先的主人,並且每個奴隸將繼續獨立操作,直到檢測到新的領導者,此時它將向主人重新註冊併發送任何排隊的狀態更新。

相關問題