5

我有一個在Google Compute Engine上運行的Apache Spark腳本,該腳本用於輸出Google雲端存儲。我的Cloud Storage文件夾中有超過300個部分00XXX文件。我想合併它們。在Google雲端存儲中合併超過32個文件

我想:

[email protected]:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv 

但我得到這個錯誤:

CommandException: "compose" called with too many component objects. Limit is 32. 

解決合併所有論文部分文件的任何想法?

+1

將文件分割成32個文件塊。分別合併每個。鑑於你從N個文件開始,現在你將擁有N/32個文件。重複。如果你有足夠的內存,你可以使用子命令行來完成,而不必每次都讀/寫磁盤 – 2014-10-03 12:23:28

回答

5

您只能在單個請求中撰寫32個對象,但複合對象最多可能包含1024個組件。特別是,你可以將對象0-31合成到一些對象0'中,32-63合成爲1'等等,然後每個合成對象可以通過合成(0',1',...,floor (32分之300)')。

+0

如果有人寫腳本來做,請不要猶豫,讓我知道。 – poiuytrez 2014-10-06 10:14:42

相關問題