2014-10-16 38 views
4

我們正在獨立的Spark集羣版本1.0.2(以前的主要版本)中運行我們的計算。我們沒有配置任何HA或恢復邏輯。 驅動程序端的一項功能會消耗傳入的JMS消息,並提交相應的作業進行激發。Apache Spark:如果主設備出現故障,設計的行爲是什麼

當我們只帶一個& Spark master down(測試)時,看起來驅動程序無法正確計算出集羣不再可用。這導致2個主要​​問題:

  1. 驅動程序試圖無限重新連接到主,或者至少我們不能等到它放棄。
  2. 由於之前的觀點,提交新作業塊(在org.apache.spark.scheduler.JobWaiter#awaitResult中)。我認爲這是因爲羣集不報告不可緩解/關閉,並且提交只是邏輯等待,直到羣集返回。對我們來說,這意味着我們用盡了JMS監聽器線程,因爲它們都被阻塞了。

有一對夫婦,你可以星火配置阿卡故障檢測相關的屬性,但是:

  1. 的官方文檔強烈不建議啓用內置的故障檢測阿卡的。
  2. 我真的很想了解這是如何工作的默認情況下。

那麼,任何人都可以請解釋什麼是設計的行爲,如果一個獨立的部署模式的火花主人失敗/停止/關閉。我無法在互聯網上找到任何關於此的適當文檔。

回答

相關問題