我有一個在Google Compute Engine上運行的Apache Spark腳本,該腳本用於輸出Google雲端存儲。我的Cloud Storage文件夾中有超過300個部分00XXX文件。我想合併它們。在Google雲端存儲中合併超過32個文件
我想:
[email protected]:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
但我得到這個錯誤:
CommandException: "compose" called with too many component objects. Limit is 32.
解決合併所有論文部分文件的任何想法?
將文件分割成32個文件塊。分別合併每個。鑑於你從N個文件開始,現在你將擁有N/32個文件。重複。如果你有足夠的內存,你可以使用子命令行來完成,而不必每次都讀/寫磁盤 – 2014-10-03 12:23:28