2016-05-12 31 views
0

我正在運行Spark Notebook以將DataFrame作爲Parquet文件保存在Bluemix對​​象存儲中。用Apache Spark筆記本覆蓋Bluemix對​​象存儲中的Parquet文件

重新運行筆記本時,我想覆蓋Parquet文件。但實際上它只是附加數據。

下面IPython的代碼示例:

df = sqlContext.sql("SELECT * FROM table") 
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite") 

回答

0

我不是蟒蛇的傢伙,但對數據幀SaveMode工作這樣

df.write.mode(SaveMode.Overwrite).parquet("swift://my-container.spark/simdata.parquet") 
+0

我試過 'df.write.mode(「覆蓋」).parquet(「swift://my-container.spark/simdata.parquet」)' 如此處所述[Spark SQL Save Modes](http://spark.apache .org/docs/latest/sql-programming-guide.html#save-modes) 但它仍然附加:/ –

+0

你可以去你的4040端口,看看哪些工作正在運行 –

+0

我的意思是有任何可能在你的代碼中首先寫入數據並追加它。 –

0

我覺得blockstorage僅更換「SIMDATA .parquet''PART-0000 *'仍然是'simdata.parquet'與'UUID'的app-id,當你嘗試閱讀時,DF閱讀所有文件'simdata.parquet *'

相關問題