Spark上的Hive 2.1.1 - 我應該使用哪個版本的Spark

我正在運行配置單元2.1.1，Ubuntu 16.04上的hadoop 2.7.3。Spark上的Hive 2.1.1 - 我應該使用哪個版本的Spark

Install/build a compatible version. Hive root pom.xml's defines what version of Spark it was built/tested with.

我檢查了pom.xml的，它表明，火花的版本是1.6.0。

<spark.version>1.6.0</spark.version>

但Hive on Spark: Getting Started也說，

Prior to Spark 2.0.0: ./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

Since Spark 2.0.0: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

所以現在我很困惑，因爲我正在運行的Hadoop 2.7.3。我必須將我的hadoop降級到2.4嗎？

我應該使用哪個版本的Spark？ 1.6.0還是2.0.0？

謝謝！

來源

2017-02-16 Top.Deck

我目前使用火花2.0.2與hadoop 2.7.3和配置單元2.1，它的工作正常。我認爲配置單元將支持spark 1.6.x和2.x兩個版本，但我會建議你使用spark 2.x，因爲它是最新版本。

一些激勵鏈接，爲什麼要使用火花2.X https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20Apache%20Spark%202.0%20Examples/03%20Performance%20Apache%20(Spark%202.0%20vs%201.6).html

Apache Spark vs Apache Spark 2

來源

2017-02-16 23:46:04

我試過Spark 1.6.0，它工作。我會按照你的建議測試Spark 2.0.2。 –

如果您遇到任何問題，請告知我。 –

@siddharthajain，請你分享你在Spark上配置Hive的詳細步驟？我試圖在Spark（2.1.0）上運行Hive（2.1.1），但失敗了。我以獨立模式啓動Spark，並使用以下命令啓動配置單元：hive --auxpath $ HOME/Tools/spark-2.1.0-bin-hadoop2.7/jars /，使用命令設置配置單元： set hive.execution.engine = spark; set spark.master = spark：//10.0.0.26：7077; 配置單元> set spark.eventLog.enabled = true; hive> set spark.eventLog.dir =/tmp/hive-shizhz/spark /; 配置單元> set spark.executor.memory = 512m; 配置單元> set spark.serializer = org.apache.spark.serializer。KryoSerializer; – shizhz

星火2.X的當前版本與蜂巢2.1和Hadoop 2.7兼容，有一個最大的錯誤：

JavaSparkListener不可用，蜂巢崩潰的執行

https://issues.apache.org/jira/browse/SPARK-17563

你可以嘗試建立蜂巢2.1 Hadoop的2.7和1.6星火帶：

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

如果2.0後的差值來看看的命令是./make-distribution是文件夾的/ dev內。

如果不Hadoop的2.7.X的工作，我可以肯定你，我已經能夠使用Hadoop 2.6成功構建它，使用：

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided"

和斯卡拉2.10.5

來源

2017-05-04 15:21:06 chuseuiti

根據以下鏈接，最近在2.2.0中已修復此問題 https://issues.apache.org/jira/browse/HIVE-14029 –

該問題已解決，但未解決https：//問題。 apache.org/jira/browse/SPARK-17563。 – chuseuiti

Spark上的Hive 2.1.1 - 我應該使用哪個版本的Spark

回答

相關問題