我是一個新手,試圖瞭解我們可能會重新寫一批ETL過程到谷歌數據流。我讀過一些文檔,運行幾個例子。複雜的加入谷歌數據流
我建議新的ETL過程由商業事件驅動(即源PCollection)。這些將觸發該特定商業實體的ETL過程。 ETL過程將從源系統中提取數據集,然後將這些結果(PCollections)傳遞到下一個處理階段。處理階段將涉及各種類型的聯合(包括笛卡爾和非關鍵聯結,例如日期結合)。
所以一對夫婦的問題在這裏:
(1)是我提議有效&有效的辦法?如果不是更好,我還沒有看到任何關於使用Google Dataflow的真實複雜ETL過程的演示,只有簡單的場景。
是否有更適合的「更高級」ETL產品?我一直在關注Spark和Flink。
我們目前的ETL雖然只有大約30個核心表(經典的EDW維度和事實)以及〜1000個轉換步驟,但是中等複雜。源數據很複雜(大約150個Oracle表)。
(2)複雜的非關鍵連接,這些如何處理?
我明顯被Google Dataflow吸引,因爲它首先是一個API,並行處理功能看起來非常合適(我們被要求從批處理過夜轉移到增量處理)。
這個用例的數據流的一個很好的例子會真正推動採用!
謝謝, 邁克小號