當試圖在~800.000文件上運行大型轉換時,嘗試運行管道時出現上述錯誤消息。Google Dataflow:請求有效負載大小超出限制:10485760字節
下面是代碼:
public static void main(String[] args) {
Pipeline p = Pipeline.create(
PipelineOptionsFactory.fromArgs(args).withValidation().create());
GcsUtil u = getUtil(p.getOptions());
try{
List<GcsPath> paths = u.expand(GcsPath.fromUri("gs://tlogdataflow/stage/*.zip"));
List<String> strPaths = new ArrayList<String>();
for(GcsPath pa: paths){
strPaths.add(pa.toUri().toString());
}
p.apply(Create.of(strPaths))
.apply("Unzip Files", Write.to(new ZipIO.Sink("gs://tlogdataflow/outbox")));
p.run();
}
catch(IOException io){
//
}
}
我想這就是正是谷歌的數據流是?處理大量的文件/數據?
有沒有辦法拆分負載,使其工作?
感謝& BR
菲爾