2017-04-25 26 views
0

我正在嘗試創建處理數千個文件的數據流作業,並且爲每個文件寫入到GCS中的其他目標。Google Dataflow作業因「上傳數據不足」而失敗

我必須做很多TextIO作爲源代碼並將其作爲單獨的流寫入目標。示例代碼片段如下:

List<PCollection<String>> pcs = new ArrayList<>(); 
 
for(int i = 0; i < 2000; i++) { 
 
     pcs.add(p.apply(TextIO.Read.from("gs://wushilin-asia/some-folder/input-" + i + "/*"))); 
 
} 
 

 
for(int i = 0; i < 2000; i++) { 
 
     pcs.get(i).apply(TextIO.Write.to("gs://wushilin-asia/some-folder/output-" + i + "/")); 
 
} 
 
p.run();

這靜靜地失敗(似乎永遠掛),誤差在後臺「上傳數據不足」。

這裏怎麼回事?

+0

事實證明,數據流結構太複雜,數據流作業元數據存儲無法處理它。減少到更少的組件解決了這個問題 –

回答

0

事實證明,數據流結構太複雜,數據流作業元數據存儲無法處理它。減少到更少的組件解決了這個問題

相關問題