2015-04-16 71 views

回答

1

如果主人在過去的60秒內未收到心跳消息(根據spark.worker.timeout),則認爲該工人失敗。在這種情況下,分區被分配給另一名工作人員(記住,分區RDD即使丟失也可以重建)。

對於新節點是否引入羣集的問題?一旦從機啓動,spark-master將不會檢測到羣集中的新節點,因爲在應用程序提交羣集之前,sbin/start-master.sh啓動主機,sbin/start-slaves.sh讀取spark-master中的conf/slaves文件(包含所有從機​​的IP地址)並在每臺指定的機器上啓動一個從機實例。 spark-master在啓動後不會讀這個配置文件。所以一旦所有的從站啓動,就不可能添加新的節點。

+0

感謝您對Arnav的迴應。 –

+0

快速跟進qs。如果只有在Worker上,並且它在處理分區的過程中崩潰,Spark是否會失敗整個作業?因爲,現在沒有工人重新分配該分區。 –

+0

我找不到'spark.worker.timeout'配置。相反,我發現'spark.akka.heartbeat.interval(1000sec)','spark.akka.timeout(100sec)','spark.network.timeout(120sec)'聽起來像至少需要2分鐘,至少節點在重新分配前死亡會發生。 –

相關問題