2015-09-28 55 views
0

我從Spark download link下載的來源,我一直在使用無法找到pyspark火花組裝1.4.0-hadoop2.6.0.jar

build/mvn -Pyarn -Phadoop-2.6 -Phive -Dhadoop.version=2.6.0 -DskipTests clean package 

建,但是當我做jar -tf spark-assembly-1.4.0-hadoop2.6.0.jar |grep pyspark 它沒有顯示任何結果。我在CentOS 6.6上構建它。我創建組裝jar錯了嗎?

我已經看過AWS EMR Spark "No Module named pyspark",看起來他的組裝JAR顯示了一個pyspark類。
阿帕奇星火文檔不會在這個完全清楚(或我可能錯了)

請賜教以下:

  1. 要上線運行pyspark,並裝配JAR需要包含pyspark上課?
  2. 如果是,我該如何將它添加到組裝jar?

回答

0

這是正常的 - 裝配罐子沒有任何pyspark類。

編輯:

你可以找到通過搜索從py4jjava_import功能pyspark使用的罐子。它看起來像那些罐子:

# From java_gateway.py 
java_import(gateway.jvm, "org.apache.spark.SparkConf") 
java_import(gateway.jvm, "org.apache.spark.api.java.*") 
java_import(gateway.jvm, "org.apache.spark.api.python.*") 
java_import(gateway.jvm, "org.apache.spark.mllib.api.python.*") 
java_import(gateway.jvm, "org.apache.spark.sql.*") 
java_import(gateway.jvm, "org.apache.spark.sql.hive.*") 
java_import(gateway.jvm, "scala.Tuple2") 

# From context.py: 
java_import(gw.jvm, "org.apache.spark.streaming.*") 
java_import(gw.jvm, "org.apache.spark.streaming.api.java.*") 
java_import(gw.jvm, "org.apache.spark.streaming.api.python.*")