2017-06-04 35 views
0

在谷歌雲數據流1.x中,我大概有機會訪問這個關鍵的管道選項叫做: ​​--workerCacheMB設置在apache beam 0.6中丟失?

我試圖設置在我光束0.6的管道,但不能這樣做(有人說,沒有這樣的選項存在)。然後,我瀏覽了選項源代碼,看看是否有任何選項有相似的名稱 - 但我仍然無法找到它。

我需要設置它,因爲我認爲我的worfklow的速度非常慢,是因爲3GB的側面輸入,但看起來好像需要20分鐘才能閱讀。 (我有一個View.asList(),然後我試圖在列表上做一個for循環 - 這需要20多分鐘,並且仍然在進行;即使在3 GB,這太慢了。)所以,我希望設置workerCacheMb會有所幫助。 (唯一的其他理論是從serializablecoder切換到AvroCoder ....)

回答

1

您是否使用正確的選項類?

下面的代碼對我的作品在梁:

DataflowWorkerHarnessOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create() 
      .cloneAs(DataflowWorkerHarnessOptions.class); 

    options.setWorkerCacheMb(3000);