我想數據幀保存到S3,但是當我將文件保存到S3,它會創建空文件與${folder_name}
,在我要保存文件。Pyspark保存數據幀到S3
語法來保存數據框: -
f.write.parquet("s3n://bucket-name/shri/test")
它保存在測試文件夾中的文件,但它創造shri
下$test
。
有沒有一種方法可以保存它而不創建額外的文件夾?
我想數據幀保存到S3,但是當我將文件保存到S3,它會創建空文件與${folder_name}
,在我要保存文件。Pyspark保存數據幀到S3
語法來保存數據框: -
f.write.parquet("s3n://bucket-name/shri/test")
它保存在測試文件夾中的文件,但它創造shri
下$test
。
有沒有一種方法可以保存它而不創建額外的文件夾?
據我所知,目前還沒有辦法控制的實際拼花文件的命名。當您將數據框寫入parquet時,需要指定目錄名稱,並在該目錄下創建適當的parquet文件。
我能夠通過使用下面的代碼來做到這一點。
df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")
感謝烏斯曼對響應的目的,是否有這需從國外進口,因爲任何模塊,當我嘗試相同的時候,我得到error.Traceback(最近調用最後一個): 文件「
給出覆蓋值的引號,即模式=「覆蓋」 –
我在堆棧上找到了一個類似的帖子,這裏是鏈接。它已經回答了這個問題。
爲了寫一個文件,你需要使用一個執行者,一個減速,這違背了星火的分佈式特性 –