2015-10-06 18 views
2

我加載一個CSV文件導入pyspark如下(內pyspark殼)讀取屬性:SQLContext對象有沒有在閱讀CSV在pyspark

>>> from pyspark.sql import SQLContext 
>>> sqlContext = SQLContext(sc) 
>>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv') 

,但我收到此錯誤:

Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
AttributeError: 'SQLContext' object has no attribute 'read' 
>>> 

我正在使用spark 1.3.1,我正在嘗試用戶spark-csv

回答

4

您正在嘗試使用Spark 1.4+語法。

對於Spark 1.3

from pyspark.sql import SQLContext 
sqlContext = SQLContext(sc) 

df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv") 
df.select("year", "model").save("newcars.csv", "com.databricks.spark.csv") 
+0

其實我現在用的火花CSV模塊,https://github.com/databricks/spark-csv#python-api的Python API中的例子。這使得使用閱讀,因爲我在做 – MedAli

+0

@MedAli你正在嘗試使用'Spark 1.4+:'語法 –

+0

我收到一個錯誤,說處理csv的類缺少:「java.lang.RuntimeException:無法加載數據源的類:com.databricks.spark.csv 「 – MedAli

相關問題