2017-08-05 21 views
0

我是Spark的新用戶,使用python使用pyspark編寫作業。我想在羣集上運行我的腳本,並通過發送log4j.properties來設置日誌級別爲WARN使用--files標記來刪除詳細日誌記錄。我有一個腳本使用的本地csv文件,我也需要包含它。我如何使用--files標籤來包含這兩個文件?Pyspark:如何使用 - 在運行Yarn羣集上的作業時使用多個文件的文件標籤

我使用下面的命令:

/opt/spark/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 50 --executor-cores 2 --executor-memory 2G --files /opt/spark/conf/log4j.properties ./list.csv ./read_parquet.py

,但我得到了以下錯誤: 「」 Error: Cannot load main class from JAR file:/opt/spark/conf/./list.csv `

回答

0

你可以刪除/面向第二個文件...在這裏,我刪除了這個工作。

/opt/spark/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 50 --executor-cores 2 --executor-memory 2G --files /opt/spark/conf/log4j.properties /list.csv /read_parquet.py 
相關問題