Pyspark和鳳凰表

我想用Pyspark的鳳凰表。我嘗試我在這裏找到的解決方案：https://phoenix.apache.org/phoenix_spark.html Pyspark和鳳凰表

但是我有一個錯誤。你能幫我解決這個錯誤嗎？

df_metadata = sqlCtx.read.format("org.apache.phoenix.spark").option("zkUrl", "xxx").load("lib.name_of_table") 
print(df_metadata.collect())

和錯誤：

py4j.protocol.Py4JJavaError：同時呼籲o103.load發生錯誤。：java.lang.ClassNotFoundException：無法找到數據源：org.apache.phoenix.spark。請在http://spark-packages.org

找到包如何使用org.apache.phoenix.spark與pyspark？

來源

2017-01-30 Zop

步驟1 ...爲確保所有必需的Phoenix/HBase平臺依賴性可用於Spark執行程序和驅動程序的類路徑中，在spark-defaults.conf中設置'spark.executor.extraClassPath'和'spark.driver.extraClassPath'，以包含'phoenix- -client-spark.jar' –

- -conf「spark.executor.extraClassPath =/opt/apache-phoenix-XXX-HBase-XX-bin/phoenix-XXX-HBase-XX-client.jar」\ --conf 「spark.driver.extraClassPath =/opt/apache-phoenix-X.X.X-HBase-X.X-bin/phoenix-X.X.X -HBase-X.X-client.jar」\我在Spark Submit中添加這些行。但我不明白第2步... – Zop

第2步是如果你在Java/Scala中使用Maven，我認爲 –

OK，我發現這個代碼是如何正確的：我在我加入這部分火花提交： --jars /opt/phoenix-4.8.1-HBase-1.2/phoenix-spark-4.8.1-HBase- 1.2.jar，/ opt/phoenix-4.8.1-HBase-1.2/phoenix-4.8.1-HBase-1.2-client.jar \

來源

2017-02-10 16:21:28 Zop

Pyspark和鳳凰表

回答

相關問題