1

我使用Google Cloud Dataflow來處理綁定數據並輸出到BigQuery,我希望它可以處理某些內容並編寫一些內容(如流,而不是批處理),有什麼辦法可以做到這一點?有什麼辦法可以讓Cloud Dataflow輸出像流一樣?

目前,Dataflow將等待工作進程不要所有數據,並寫入BigQuery,我嘗試添加FixedWindow並使用Log Timestamp參數爲window_timestamp,但它不起作用。

我想知道:

  1. 是開窗來處理這個問題正確的方式?
  2. 是BigQueryIO真的寫批處理或者它可能只是不顯示在我的儀表板(背景寫入流?)
  3. 有什麼辦法可以做我需要嗎?

我的源代碼是在這裏:http://pastie.org/10907947

非常感謝您!

回答

3

您需要在您的PipelineOptions中將streaming屬性設置爲true

有關更多信息,請參閱"streaming execution"

此外,您需要使用可以生成/消耗無限數據的源/匯。 BigQuery已經可以在兩種模式下編寫,但是目前TextIO只能讀取有界數據。但是,編寫一個自定義的無界源代碼可以掃描目錄中的新文件,這當然是可能的。

相關問題