2015-02-10 46 views
-1

我一直在羣集上安裝Spark,一直在苦苦掙扎。在Maven上構建Spark之後安裝Spark

因爲集羣使用Hadoop 2.2,並且因爲我想在YARN上使用PySpark。我必須使用MAVEN來構建Spark。這個過程的輸出是一個.jar文件:spark-assembly-1.2.0-hadoop2.2.0.jar(我不熟悉Java)。如果我嘗試在使用Java的任何節點上執行該文件,該.jar文件將不會運行(「無法找到或加載主類」)。

我發現的安裝說明涉及運行.sh文件,這不是我的MAVEN構建的輸出。

我在這裏錯過了什麼?我無法在文檔中找到答案。

回答

0

您不需要使用Maven構建Spark來使用PyShark。您在預構建的Spark包中使用提交腳本。

編輯:

出口MAVEN_OPTS = 「 - Xmx2g -XX:MaxPermSize參數= 512M -XX:ReservedCodeCacheSize =512米」 出口JAVA_HOME = your_java_home

./make-distribution.sh -Pyarn -Phadoop- 2.2

生成的分配將位於dist目錄中。

+0

文檔中提到「只有使用Maven構建jar時,僅支持YARN上的PySpark」。 (https://spark.apache.org/docs/1.1.0/building-with-maven.html#building-for-pyspark-on-yarn),此外,Hadoop 2.2沒有預構建的軟件包。 – 2015-02-10 12:58:01

+0

您可以使用隨源提供的腳本自行構建一個分配給某些maven配置文件的分配: 請參閱編輯 – Sietse 2015-02-10 13:13:55