SQLContext對象有沒有在閱讀CSV在pyspark

我加載一個CSV文件導入pyspark如下（內pyspark殼）讀取屬性：SQLContext對象有沒有在閱讀CSV在pyspark

>>> from pyspark.sql import SQLContext 
>>> sqlContext = SQLContext(sc) 
>>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv')

，但我收到此錯誤：

Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
AttributeError: 'SQLContext' object has no attribute 'read' 
>>>

我正在使用spark 1.3.1，我正在嘗試用戶spark-csv

來源

2015-10-06 MedAli

您正在嘗試使用Spark 1.4+語法。

對於Spark 1.3

from pyspark.sql import SQLContext 
sqlContext = SQLContext(sc) 

df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv") 
df.select("year", "model").save("newcars.csv", "com.databricks.spark.csv")

來源

2015-10-06 10:37:46

其實我現在用的火花CSV模塊，https://github.com/databricks/spark-csv#python-api的Python API中的例子。這使得使用閱讀，因爲我在做 – MedAli

@MedAli你正在嘗試使用'Spark 1.4+：'語法 –

我收到一個錯誤，說處理csv的類缺少：「java.lang.RuntimeException：無法加載數據源的類：com.databricks.spark.csv 「 – MedAli

SQLContext對象有沒有在閱讀CSV在pyspark

回答

相關問題