2016-08-01 81 views
7

我們正在通過​​運行Spark作業,並且我可以看到在失敗的情況下將重新提交作業。如何限制Spark作業失敗時的重試次數?

如何防止紗線容器發生故障或出現異常情況時嘗試#2?

enter image description here

+0

不錯!我一直在夢想着能夠看到應用程序嘗試增加的用例。你知道是什麼原因造成的嗎? –

+0

由於缺少內存和「超出GC開銷限制」問題,導致容器分配失敗時發生了這種情況。 – codingtwinky

回答

5

有控制的重試次數(即ApplicationMaster註冊嘗試與紗線的最大數量被認爲失敗,並因此整個火花應用)兩個設置:

  • spark.yarn.maxAppAttempts - Spark自己的設置。見MAX_APP_ATTEMPTS

    private[spark] val MAX_APP_ATTEMPTS = ConfigBuilder("spark.yarn.maxAppAttempts") 
        .doc("Maximum number of AM attempts before failing the app.") 
        .intConf 
        .createOptional 
    
  • yarn.resourcemanager.am.max-attempts - YARN自己設置默認爲2。

(正如你在YarnRMClient.getMaxRegAttempts看到)的實際數量的紗和星火的配置設置最低YARN是最後的選擇。

2

財產yarn.resourcemanager.am.max-attempts添加到您的紗default.xml中的文件。它指定了最大的應用程序嘗試次數。

詳情調查此link

相關問題