2015-02-23 81 views
3

我試圖啓動spark-shell有:星火殼無法連接到YARN

spark-shell --master yarn-client 

然後我進入外殼。但幾秒鐘後,我在shell得到這個:

WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://[email protected]:38171] has failed, address is now gated for [5000] ms. Reason is: [Disassociated]. 

我得到這個錯誤在紗線日誌文件中重複多次。

15/02/23 20點37分26秒INFO yarn.YarnAllocationHandler:完成容器 container_1424684000430_0001_02_000002(狀態:COMPLETE,退出狀態: 1)15/02/23 20點37分26秒INFO yarn.YarnAllocationHandler :標記爲 的容器失敗:container_1424684000430_0001_02_000002。退出狀態:1. 診斷:容器啓動異常。容器ID: container_1424684000430_0001_02_000002退出代碼:1堆棧跟蹤: ExitCodeException EXITCODE = 1: org.apache.hadoop.util.Shell.runCommand(Shell.java:538)在 org.apache.hadoop.util.Shell。運行(Shell.java:455) org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute(Shell.java:715) at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor的.java:211) 在 org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302) 在 org.apache.hadoop.yarn.server.nodemanager.containermanager .launcher.ContainerLaunch.call(ContainerLaunch。的java:82) 在java.util.concurrent.FutureTask.run(FutureTask.java:262)在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor中$ Worker.run(ThreadPoolExecutor.java:615) 在java.lang.Thread.run(Thread.java:745)

集裝箱退出,非零退出代碼1

我還注意到此行:

15/02/23 21:00:20 INFO yarn.ExecutorRunnable: Setting up executor with commands: List($JAVA_HOME/bin/java, -server, -XX:OnOutOfMemoryError='kill %p', -Xms1024m -Xmx1024m , -Djava.io.tmpdir=$PWD/tmp, '-Dspark.driver.port=33837', -Dspark.yarn.app.container.log.dir=<LOG_DIR>, org.apache.spark.executor.CoarseGrainedExecutorBackend, akka.tcp://[email protected]:33837/user/CoarseGrainedScheduler, 4, vbox-lubuntu, 1, application_1424684000430_0003, 1>, <LOG_DIR>/stdout, 2>, <LOG_DIR>/stderr) 

奇怪的部分是-Dspark.yarn.app.container.log.dir =。它看起來像變量沒有擴大。但我想我已經定義了它。

P.S.火花提交似乎工作:

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster /path/to/lib/spark-examples-1.2.1-hadoop2.4.0.jar 

回答

1

基於在this線程的討論,問題是由容器OOM引起的。唯一的解決辦法是提高系統內存...

錯誤信息是真的錯過領先。

+0

你確定它是由內存不足造成的嗎?我也有這個問題,至少6GB /每個節點未使用的內存。更新可用物理內存解決問題? – toobee 2015-04-08 14:36:35

+0

@toobee,你是否使用'--executor-memory'就像它提到的[這裏](https://spark.apache.org/docs/1.2.1/running-on-yarn.html)? Spark不會檢查您系統的可用內存。默認值非常小。 – davidshen84 2015-04-09 00:49:25

+0

好的。它似乎現在工作在集羣模式 - 迄今爲止感謝。紗線客戶端仍然不起作用。我仍然收到此錯誤消息。你有什麼想法在客戶端模式下會導致這個問題嗎?設置ram在這裏似乎沒有幫助。 – toobee 2015-04-09 07:44:10