2017-05-22 38 views
0

我需要幫助,在我的spark配置中設置特定的hadoop版本。我讀過一些可以使用hadoop.version屬性的地方。它沒有說明在哪裏找到它。如何爲Spark,Python設置特定的Hadoop版本

http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version

我需要從當前/默認設置爲2.8.0。我在PyCharm編碼。請提供幫助,並提供一步一步的指導。

謝謝!

+0

爲什麼你要做_「在我的火花配置中設置特定的hadoop版本」_?這個是來做什麼的? –

回答

0

您可以構建這樣,爲Apache Hadoop的2.7.X 後來,所以以上答案是正確的。 [

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.0 -DskipTests clean package 

]

或者你也可以修改這個在您的火花下載分發的pom.xml中執行Maven構建之前,使建築物得到你想要的版本來完成。

<profile> 
    <id>hadoop2.8</id> 
    <properties> 
     <hadoop.version>2.8</hadoop.version> 
    ... 
    </properties> 
</profile> 

查看this post獲取分步指導。

0

你可以在編譯時做到這一點。請參閱building spark doc

要建立使用Hadoop 2.8運行

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.0 -DskipTests clean package 

2.7版本是Hadoop的2.7.X後來

+0

那麼不應該'hadoop.version'爲'2.8.0'嗎? –

+0

@JacekLaskowski根據spark文檔,2.7是針對Hadoop 2.7.X及更高版本的 – banjara

+0

那麼hadoop.version = 2.7.0是什麼? OP詢問了Hadoop 2.8.0,不是嗎? –

相關問題