Apache Spark：如果主設備出現故障，設計的行爲是什麼

我們正在獨立的Spark集羣版本1.0.2（以前的主要版本）中運行我們的計算。我們沒有配置任何HA或恢復邏輯。驅動程序端的一項功能會消耗傳入的JMS消息，並提交相應的作業進行激發。Apache Spark：如果主設備出現故障，設計的行爲是什麼

當我們只帶一個& Spark master down（測試）時，看起來驅動程序無法正確計算出集羣不再可用。這導致2個主要問題：

驅動程序試圖無限重新連接到主，或者至少我們不能等到它放棄。
由於之前的觀點，提交新作業塊（在org.apache.spark.scheduler.JobWaiter＃awaitResult中）。我認爲這是因爲羣集不報告不可緩解/關閉，並且提交只是邏輯等待，直到羣集返回。對我們來說，這意味着我們用盡了JMS監聽器線程，因爲它們都被阻塞了。

有一對夫婦，你可以星火配置阿卡故障檢測相關的屬性，但是：

那麼，任何人都可以請解釋什麼是設計的行爲，如果一個獨立的部署模式的火花主人失敗/停止/關閉。我無法在互聯網上找到任何關於此的適當文檔。

2014-10-16 preeze

默認情況下，Spark可以處理工人失敗，但不能處理主（驅動程序）失敗。 如果主程序崩潰，則不能創建新的應用程序。因此，它們提供了2個高可用性方案在這裏：https://spark.apache.org/docs/1.4.0/spark-standalone.html#high-availability

希望這有助於

李全安待辦事項

2015-06-22 15:58:10

回答