2017-06-29 93 views
0

火花當我提交火花的工作,它未能在外殼下面exeption集羣激發駕駛員:在線程「主要」組織連接失敗提交作業時紗線模式

例外。 apache.spark.SparkException: 應用application_1497125798633_0065失敗的狀態 在org.apache.spark.deploy.yarn.Client.run(Client.scala:1244)完成 在org.apache.spark.deploy.yarn.Client $。主(Client.scala:1290) 在org.apache.spark.deploy.yarn.Client.main(Client.scala) 在sun.reflect.NativeMethodAccessorImpl.invoke0(本機方法)(Method.java:498)上的sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at org.apache.spark.deploy.SparkSubmit $ .org $ apache $ spark $ deploy $ SparkSubmit $$ runMain(SparkSubmit.scala:750) at org.apache.spark.deploy.SparkSubmit $ .doRunMain $ 1(SparkSubmit。階:187) 在org.apache.spark.deploy.SparkSubmit $ .submit(SparkSubmit.scala:212) 在org.apache.spark.deploy.SparkSubmit $。主要(SparkSubmit.scala:126) 在有機apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)17/06/29 10時25分36秒INFO ShutdownHookManager:關閉鉤稱爲

這是它給出了紗線日誌:

造成的:java.io.IOException異常:無法連接到/0.0.0.0:35994在 org.apache.spark.network.client。 TransportClientFactory.createClient(TransportClientFactory.java:232) 在 org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:182) 在 org.apache.spark.rpc.netty.NettyRpcEnv.createClient( NettyRpcEnv.scala:197) 在org.apache.spark.rpc.netty.Outbox $匿名$ 1.call(Outbox.scala:194)在 org.apache.spark.rpc.netty.Outbox $匿名$ 1.call(Outbox.scala:190)在 java.util.concurrent.FutureTask.run(FutureTask.java:266)在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor中的$ Worker.run(ThreadPoolExecutor.java:617) 在java.lang.Thread.run(Thread.java:745)

我猜意味着它無法連接到驅動程序。我試圖增加「spark.yarn.executor.memoryOverhead」參數,但沒有奏效。

這是提交命令我使用:

/bin/spark-submit \ 
    --class example.Hello \ 
    --jars ... \ 
    --master yarn \ 
    --deploy-mode cluster \ 
    --supervise \ 
    --conf spark.yarn.driver.memoryOverhead=1024 ...(jar file path) 

我使用HDP-2.6.1.0和火花2.1.1

+0

你可以刪除'--supervise'並重新開始嗎?你能粘貼'spark-shell'的整個輸出嗎?你能粘貼來自YARN的日誌嗎?使用[yarn logs -applicationId](https://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/YarnCommands.html#logs)。 –

+0

我把它從命令中移除了,沒有任何改變。我更新了我的問題以獲得shell錯誤以及紗線日誌中的異常 –

+0

您是否可以將其他行粘貼到異常之上?我想我已經看到了類似的例外情況,並且正在關機。顯示更多日誌。謝謝。 –

回答

0

運行紗線模式火花(這我在做什麼)是HDP使用火花權規定在這裏:https://community.hortonworks.com/questions/52591/standalone-spark-using-ambari.html

,這意味着我不應該指定一個主或使用啓動主/開始 - 從屬命令。

問題是由於某種原因,驅動程序IP被取爲0.0.0.0,並且所有羣集節點都嘗試使用本地接口聯繫驅動程序,從而失敗。

spark.driver.port = 20002

spark.driver.host = HOST_NAME

和通過: 我通過在CONF /火花defaults.conf設置以下配置固定這樣將部署模式更改爲客戶端,以使其在本地進行剝離。

0

看到這個:

Caused by: java.io.IOException: Failed to connect to /0.0.0.0:35994 

嘗試spark-submit --master <master-ip>:<spark-port>提交工作。

+0

我試過了,我得到了這個異常: '17/06/29 23:35:30 ERROR TransportResponseHandler:從/127.0.0.1連接時仍然有1個未完成請求: 6 066已關閉 17/06/29 23:35:30 WARN StandaloneAppClient $ ClientEndpoint:無法連接到主站127.0.0.1:6066 org.apache.spark.SparkException:在awaitResult中拋出異常 由java導致。 io.IOException:從/127.0.0.1:6066連接關閉' 這是我從主日誌中得到的: WARN HttpParser:非法字符0x0在state = START for buffer中 –