2017-04-04 90 views
0

我想pyspark本(上Databricks運行)連接到MongoDB中:PySpark的MongoDB/java.lang.NoClassDefFoundError:組織/阿帕奇/火花/ SQL /數據幀

from pyspark import SparkConf, SparkContext 
from pyspark.mllib.recommendation import ALS 
from pyspark.sql import SQLContext 
df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load() 

,但我得到這個錯誤

java.lang.NoClassDefFoundError:組織/阿帕奇/火花/ SQL /數據幀

我使用火花2.0和蒙戈-火花連接器2.11和定義spark.mongodb.input.uri和spark.mongodb.output .uri

回答

0

您正在使用spark.read.format你定義spark

之前,你可以在Spark 2.1.0 documents

一個SparkSession看到可用於創建數據幀,登記數據幀表,執行SQL過表,緩存表,並讀取拼花文件。要創建一個SparkSession,使用下面的生成器模式:

spark = SparkSession.builder \ 
.master("local") \ 
.appName("Word Count") \ 
.config("spark.some.config.option", "some-value") \ 
.getOrCreate() 
+0

其實我使用Databricks和我已經有火花定義,我得到「<在0x7f25ac1ad6d0 pyspark.sql.session.SparkSession對象>」當我運行打印火花 – Pierre

0

我設法讓,因爲我是用蒙戈 - 火花connector_2.10-1.0.0代替蒙戈 - 火花connector_2.10-2.0工作0.0

相關問題