2015-05-19 38 views
1

我正在學習如何使用火花和我有一個簡單program.When我運行jar文件,它給了我正確的結果,但我在STDERR file.just像一些錯誤這樣的:星火:executor.CoarseGrainedExecutorBackend:驅動程序解除關聯解除關聯

15/05/18 18:19:52 ERROR executor.CoarseGrainedExecutorBackend: Driver Disassociated [akka.tcp://[email protected]:51976] -> [akka.tcp://[email protected]:60060] disassociated! Shutting down. 
15/05/18 18:19:52 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://[email protected]:60060] has failed, address is now gated for [5000] ms. Reason is: [Disassociated]. 

你可以在那裏得到了整個標準錯誤文件:

http://172.31.34.148:8081/logPage/?appId=app-20150518181945-0026&executorId=0&logType=stderr

我搜索這個問題,並發現這一點:

Why spark application fail with "executor.CoarseGrainedExecutorBackend: Driver Disassociated"?

然後我打開spark.yarn.executor.memoryOverhead,因爲它說,但它不起作用。

我只有一個主節點(8G內存),並在火花的奴隸文件只有一個從節點 - 主itself.I提交這樣的:

./bin/spark-submit --class .... --master spark://master:7077 --executor-memory 6G --total-executor-cores 8 /path/..jar hdfs://myfile 

我不知道是什麼是執行者,什麼是司機... ...笑對不起 有關..

人幫助我嗎?

+0

172.31.34。148是私人地址,我們看不到它。 –

+0

請分享,如果你已經找出解決方案。我面臨同樣的錯誤。 http://ec2-54-174-186-17.compute-1.amazonaws.com:8080/ –

+0

在這方面的任何更新? –

回答

-1

驅動程序與執行程序(和其他人)的概述可以在http://spark.apache.org/docs/latest/cluster-overview.htmlhttps://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-architecture.html

發現他們是可以在不同的或根據您的配置在同一臺機器上運行的Java程序。驅動程序包含SparkContext,聲明RDD改造(如果我沒有記錯的話 - 認爲執行計劃),然後傳達到火花主它創建任務定義,要求對資源的集羣管理器(它自己,紗,mesos)(工人節點),這些任務又被髮送給執行者(執行)。

執行程序向主人反饋某些信息,並且據我瞭解,如果驅動程序遇到問題或崩潰,主服務器會記下並告訴執行程序(並依次記錄)您看到的「驅動程序已解除關聯」。這可能是因爲很多東西,但最常見的原因是java進程(驅動程序)內存不足(嘗試增加spark.driver.memory)

在Yarn vs Stand-alone上運行時有一些差異, Mesos,但希望這有助於。如果驅動程序被解除關聯,正在運行的java進程(作爲驅動程序)可能會遇到錯誤 - 主日誌可能有某些內容並且不確定是否存在驅動程序特定的日誌。希望有人比我更有知識可以提供更多信息。

2

如果星火驅動器發生故障,它就會被解除關聯(由紗線AM)。請嘗試以下方法使之更加容錯:

  • ​​與--supervise國旗Spark Standalone集羣
  • yarn-cluster模式紗線
  • spark.yarn.driver.memoryOverhead參數紗線

注意增加驅動程序的內存分配:YARN cluster(還)不支持駕駛員監督(spark.driver.supervise)。