1
我想用Pyspark的鳳凰表。我嘗試我在這裏找到的解決方案:https://phoenix.apache.org/phoenix_spark.htmlPyspark和鳳凰表
但是我有一個錯誤。你能幫我解決這個錯誤嗎?
df_metadata = sqlCtx.read.format("org.apache.phoenix.spark").option("zkUrl", "xxx").load("lib.name_of_table")
print(df_metadata.collect())
和錯誤:
py4j.protocol.Py4JJavaError:同時呼籲o103.load發生錯誤。 :java.lang.ClassNotFoundException:無法找到數據源:org.apache.phoenix.spark。請在http://spark-packages.org
找到包如何使用org.apache.phoenix.spark與pyspark?
步驟1 ...爲確保所有必需的Phoenix/HBase平臺依賴性可用於Spark執行程序和驅動程序的類路徑中,在spark-defaults.conf中設置'spark.executor.extraClassPath'和'spark.driver.extraClassPath',以包含'phoenix- -client-spark.jar' –
- -conf「spark.executor.extraClassPath =/opt/apache-phoenix-XXX-HBase-XX-bin/phoenix-XXX-HBase-XX-client.jar」\ --conf 「spark.driver.extraClassPath =/opt/apache-phoenix-X.X.X-HBase-X.X-bin/phoenix-X.X.X -HBase-X.X-client.jar」\我在Spark Submit中添加這些行。但我不明白第2步... – Zop
第2步是如果你在Java/Scala中使用Maven,我認爲 –