2017-04-06 13 views
0

我想知道工作人員多長時間一次檢查師父的活力?或者是主人(資源經理)是否會讓工人檢查他們的活力,以及是否有工人死於產卵?還是兩者兼而有之?在師父死後回來的時候Spark Worker沒有加入Master

一些信息: 獨立集羣 1個主 - 8core 12GB 32名工人 - 每8個內核和8 GB

我的主要問題 - 在這裏發生了什麼事:

主設備M - 與32名工人 運行工人1和2在03:55:00死亡 - 所以現在羣集是30名工人

工人1'在03:55:12.000上午 - 連接到M 工人2'在03:55出現:16.000 AM - 它連接到M

主設備M去世,享年03:56.00 AM 新的主NM和2' 」在上午3點56分三十秒 工人1' 出現 - 不要連接到NM 其餘30名工人連接到海里。

因此NM現在有30名工人。

我想知道爲什麼這兩個人不會連接到新的主NM,即使主M已經死了肯定。

PS:我爲Master設置了一個LB設置,這意味着只要有新的主設備進入LB,就會開始指向新設備。

回答

1

負載均衡器無法解決您的問題。要讓Spark工作人員識別新的主設備,您必須在高可用性模式下配置Spark。 Spark獨立支持兩種HA配置:

  • ZooKeeper的備用主設備。
  • 使用文件系統進行節點恢復。

後一種解決方案要簡單得多,但需要一個可靠的分佈式文件系統來存儲spark.deploy.recoveryDirectory,除非您在同一節點上恢復主節點。

恢復模式可以使用spark.deploy.recoveryMode屬性(NONEby default)應分別設置爲ZOOKEEPERFILESYSTEM待機和恢復節點進行配置。

更多詳細資料請參閱High Availability文件。

相關:What happens when Spark master fails?

相關問題