6
我使用下面的代碼保存火花數據幀以JSON文件如何避免在保存DataFrame時生成crc文件和SUCCESS文件?
unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
輸出結果是:
part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
- 如何生成一個JSON文件,而不是每一個文件線?
- 如何避免* crc文件?
- 如何避免SUCCESS文件?
問題是爲什麼我們需要'CRC'和'_SUCCESS'文件? Spark(worker)節點同時寫入數據,這些文件充當驗證的校驗和。寫入單個文件會消除分佈式計算的想法,如果結果文件過大,則此方法可能會失敗。 –