火花提交失敗，但未連接到互聯網

當我嘗試使用spark-submit使用參數--packages定義提交spark工作時，我期望spark首先搜索工件的本地repo，並在存在的情況下使用它們。火花提交失敗，但未連接到互聯網

我觀察到每次spark都試圖從internet上獲取工件，並且如果沒有連接失敗。

我可以強制spark使用本地緩存嗎？

例如：

spark-submit --master yarn --deploy-mode cluster --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.1.0,org.apache.spark:spark-streaming_2.11:2.1.1,org.apache.spark:spark-sql_2.11:2.1.1 my-assembly-1.1.0.jar /usr/local/path/config.properties

來源

2017-10-12 serkan

您可以添加需要的包到位於$SPARK_HOME/confspark-defaults.conf文件。它將在本地m2看包。如果軟件包不在local-m2中，它會嘗試從maven-central下載它們。例如

spark.jars.packages org.vegas-viz:vegas_2.11:0.3.11,org.apache.spark:spark-streaming-kafka-0-10_2.11:2.1.0

來源

2017-10-12 16:37:36 ashwinids

火花提交失敗，但未連接到互聯網

回答

相關問題