我試圖配置Hive,在Google Dataproc鏡像v1.1(如Hive 2.1.0和Spark 2.0.2)上運行,使用Spark作爲執行引擎而不是默認的MapReduce。如何配置Hive在Google Dataproc上使用Spark執行引擎?
按照這裏的說明https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started並不真的有幫助,當我設置hive.execution.engine=spark
時,我總是收到Error running query: java.lang.NoClassDefFoundError: scala/collection/Iterable
錯誤。
有誰知道讓Dataproc運行的具體步驟嗎?從我可以告訴它應該只是一個問題,使Hive看到正確的JAR,因爲Hive和Spark已經在羣集上安裝和配置,並且使用Spark的Hive(反過來)可以正常工作。
謝謝!我在嘗試Spark之前嘗試過在Tez上運行,但那也不起作用。我使用了你提到的成功安裝Tez的初始化操作,但是當我設置'hive.execution.engine = tez'時,我總是收到'運行查詢的錯誤:java.lang.NoClassDefFoundError:org/apache/tez/runtime/api/Event' 。你知道還有什麼我需要配置爲Tez工作? – domkck