2017-08-24 87 views
1

我想數據幀保存到S3,但是當我將文件保存到S3,它會創建空文件與${folder_name},在我要保存文件。Pyspark保存數據幀到S3

語法來保存數據框: -

f.write.parquet("s3n://bucket-name/shri/test") 

它保存在測試文件夾中的文件,但它創造shri$test

有沒有一種方法可以保存它而不創建額外的文件夾?

+0

爲了寫一個文件,你需要使用一個執行者,一個減速,這違背了星火的分佈式特性 –

回答

0

據我所知,目前還沒有辦法控制的實際拼花文件的命名。當您將數據框寫入parquet時,需要指定目錄名稱,並在該目錄下創建適當的parquet文件。

2

我能夠通過使用下面的代碼來做到這一點。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite") 
+0

感謝烏斯曼對響應的目的,是否有這需從國外進口,因爲任何模塊,當我嘗試相同的時候,我得到error.Traceback(最近調用最後一個): 文件「」,第1行,在 NameError:名稱'覆蓋'未定義 – Shrikant

+1

給出覆蓋值的引號,即模式=「覆蓋」 –