2016-12-09 29 views
0

我想將結果表保存爲csv,textfile或類似的文件,以便能夠使用RStudio執行可視化。如何在pyspark sql中保存表格?

我正在使用pyspark.sql在hadoop設置中執行一些查詢。我想將結果保存在hadoop中,然後將結果複製到本地驅動器中。

myTable = sqlContext.sql("SOME QUERIES") 
myTable.show() # Show my result 
myTable.registerTempTable("myTable") # Save as table 
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop 

這將返回此:
AttributeError的:「據幀」對象有沒有屬性「saveAsTextFile」

這是隻使用pyspark即不pyspark.sql的時候怎麼我通常做。

然後我複製到本地驅動器與

hdfs dfs –copyToLocal SEARCH PATH 

誰能幫助我?

回答

1

您可以使用DataFrameWriter以及其中一種支持的格式。例如對於JSON:

myTable.write.json(path) 
+0

謝謝!工作,因爲它應該:) 任何想法得到它作爲CSV而不是? 我試過myTable.write.csv(路徑),但沒有奏效。我正在使用spark 1.6。 – TKN

+0

https://github.com/databricks/spark-csv –