Pyspark保存數據幀到S3

我想數據幀保存到S3，但是當我將文件保存到S3，它會創建空文件與${folder_name}，在我要保存文件。Pyspark保存數據幀到S3

語法來保存數據框： -

f.write.parquet("s3n://bucket-name/shri/test")

它保存在測試文件夾中的文件，但它創造shri下$test。

有沒有一種方法可以保存它而不創建額外的文件夾？

2017-08-24 Shrikant

爲了寫一個文件，你需要使用一個執行者，一個減速，這違背了星火的分佈式特性 –

據我所知，目前還沒有辦法控制的實際拼花文件的命名。當您將數據框寫入parquet時，需要指定目錄名稱，並在該目錄下創建適當的parquet文件。

2017-08-24 19:40:22

我能夠通過使用下面的代碼來做到這一點。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

2017-08-25 02:54:54

感謝烏斯曼對響應的目的，是否有這需從國外進口，因爲任何模塊，當我嘗試相同的時候，我得到error.Traceback（最近調用最後一個）：文件「」，第1行，在 NameError：名稱'覆蓋'未定義 – Shrikant

給出覆蓋值的引號，即模式=「覆蓋」 –

我在堆棧上找到了一個類似的帖子，這裏是鏈接。它已經回答了這個問題。

2017-08-28 18:17:21 Shrikant

回答