2
我加載一個CSV文件導入pyspark如下(內pyspark殼)讀取屬性:SQLContext對象有沒有在閱讀CSV在pyspark
>>> from pyspark.sql import SQLContext
>>> sqlContext = SQLContext(sc)
>>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv')
,但我收到此錯誤:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'read'
>>>
我正在使用spark 1.3.1,我正在嘗試用戶spark-csv
其實我現在用的火花CSV模塊,https://github.com/databricks/spark-csv#python-api的Python API中的例子。這使得使用閱讀,因爲我在做 – MedAli
@MedAli你正在嘗試使用'Spark 1.4+:'語法 –
我收到一個錯誤,說處理csv的類缺少:「java.lang.RuntimeException:無法加載數據源的類:com.databricks.spark.csv 「 – MedAli