如何在pyspark sql中保存表格？

我想將結果表保存爲csv，textfile或類似的文件，以便能夠使用RStudio執行可視化。如何在pyspark sql中保存表格？

我正在使用pyspark.sql在hadoop設置中執行一些查詢。我想將結果保存在hadoop中，然後將結果複製到本地驅動器中。

myTable = sqlContext.sql("SOME QUERIES") 
myTable.show() # Show my result 
myTable.registerTempTable("myTable") # Save as table 
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop

這將返回此：
AttributeError的：「據幀」對象有沒有屬性「saveAsTextFile」

這是隻使用pyspark即不pyspark.sql的時候怎麼我通常做。

然後我複製到本地驅動器與

hdfs dfs –copyToLocal SEARCH PATH

誰能幫助我？

來源

2016-12-09 TKN

您可以使用DataFrameWriter以及其中一種支持的格式。例如對於JSON：

myTable.write.json(path)

來源

2016-12-10 04:26:06

謝謝！工作，因爲它應該:) 任何想法得到它作爲CSV而不是？我試過myTable.write.csv（路徑），但沒有奏效。我正在使用spark 1.6。 – TKN

https://github.com/databricks/spark-csv –

如何在pyspark sql中保存表格？

回答

相關問題