我正在運行Spark Notebook以將DataFrame作爲Parquet文件保存在Bluemix對象存儲中。用Apache Spark筆記本覆蓋Bluemix對象存儲中的Parquet文件
重新運行筆記本時,我想覆蓋Parquet文件。但實際上它只是附加數據。
下面IPython的代碼示例:
df = sqlContext.sql("SELECT * FROM table")
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")
我試過 'df.write.mode(「覆蓋」).parquet(「swift://my-container.spark/simdata.parquet」)' 如此處所述[Spark SQL Save Modes](http://spark.apache .org/docs/latest/sql-programming-guide.html#save-modes) 但它仍然附加:/ –
你可以去你的4040端口,看看哪些工作正在運行 –
我的意思是有任何可能在你的代碼中首先寫入數據並追加它。 –