用Apache Spark筆記本覆蓋Bluemix對象存儲中的Parquet文件

我正在運行Spark Notebook以將DataFrame作爲Parquet文件保存在Bluemix對象存儲中。用Apache Spark筆記本覆蓋Bluemix對象存儲中的Parquet文件

重新運行筆記本時，我想覆蓋Parquet文件。但實際上它只是附加數據。

下面IPython的代碼示例：

df = sqlContext.sql("SELECT * FROM table") 
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")

來源

2016-05-12 C Heyer

我不是蟒蛇的傢伙，但對數據幀SaveMode工作這樣

df.write.mode(SaveMode.Overwrite).parquet("swift://my-container.spark/simdata.parquet")

來源

2016-05-12 13:08:43

我試過 'df.write.mode（「覆蓋」）.parquet（「swift：//my-container.spark/simdata.parquet」）' 如此處所述[Spark SQL Save Modes]（http：//spark.apache .org/docs/latest/sql-programming-guide.html＃save-modes）但它仍然附加：/ –

你可以去你的4040端口，看看哪些工作正在運行 –

我的意思是有任何可能在你的代碼中首先寫入數據並追加它。 –

我覺得blockstorage僅更換「SIMDATA .parquet''PART-0000 *'仍然是'simdata.parquet'與'UUID'的app-id，當你嘗試閱讀時，DF閱讀所有文件'simdata.parquet *'

來源

2016-09-09 13:33:04 dannyeuu

用Apache Spark筆記本覆蓋Bluemix對​​象存儲中的Parquet文件

回答

相關問題

用Apache Spark筆記本覆蓋Bluemix對象存儲中的Parquet文件