Sparks將其運行時間的方式從V1更改爲V2。
- 在V2,默認情況下,你必須多個下
$SPARK_HOME/jars
- 在V1的JAR文件,默認情況下,只是有一個 大規模
spark-assembly*.jar
$SPARK_HOME/lib
根據該 包含了所有的依賴關係。
我相信你可以改變默認的行爲,但這需要重新編譯你自己星火...
而且還約spark-csv
具體爲:
- 在V2,CSV文件格式本身是由SparkSQL支持的
- 在V1中,您必須從Spark-Packages.org加
commons-csv
從Commons.Apache.org下載spark-csv
(for Scala 2.10),並將兩個JAR添加到您的CLASSP ATH
(與--jars
命令行,或用道具spark.driver.extraClassPath
+指令sc.addJar()
如果在命令行中沒有出於某種原因)
...和語法是比較煩瑣,太
從摘錄香草
$SPARK_HOME/bin/spark-class
如火花的2.1.x(大大簡化)
#查找火花的罐子
SPARK_JARS_DIR="${SPARK_HOME}/jars"
LAUNCH_CLASSPATH="$SPARK_JARS_DIR/*"
而且從Spark 1.6開始。X
#查找組裝罐子
ASSEMBLY_DIR="${SPARK_HOME}/lib"
ASSEMBLY_JARS="$(ls -1 "$ASSEMBLY_DIR" | grep "^spark-assembly.*hadoop.*\.jar$" || true)"
SPARK_ASSEMBLY_JAR="${ASSEMBLY_DIR}/${ASSEMBLY_JARS}"
LAUNCH_CLASSPATH="$SPARK_ASSEMBLY_JAR"
星火2之前,默認情況下,有一個'火花組裝的只是一個怪物* .jar'下'$ SPARK_HOME/lib'包含所有的依賴關係。如果你想要單獨的JAR,你必須重新編譯Spark。玩的開心! –
另外'spark-csv'是一個單獨的下載*(沒有嵌入到V2之前的Spark代碼庫中)並且需要Apache'commons-csv'。 –
謝謝!謹慎添加這個答案,以便我可以關閉它? – sudheeshix