2017-08-09 81 views
0

我開發了一個Dataflow管道,它讀取文件集合,併爲每個文件中的每一行執行一系列Dataflow塊。結合數據流結果

之後所有步驟已完成對文件中的每一行,我想對文件本身執行進一步的塊,但我不知道這是如何可能的。

通過TransformManyBlock拆分處理很簡單,但是如何整合呢?
我習慣了Apache Camel的SplitterAggregator功能 - 或者Dataflow的意圖和我想要的用法之間存在根本的脫節?

回答

1

你可能應該看看JoinBlockBatchedJoinBlock。他們都能夠加入兩個或三個來源,您可以爲他們設置一個過濾器來專門收集一些項目。

你一些有用的鏈接:

+0

我可能誤解了範例,BU t我不確定''JoinBlock'如何在我的用例中起作用,因爲我有'n'輸入需要等待。 每個文件可能有1000行要處理。每一行都有一系列「塊」,用於處理該行的內容。我希望在文件中所有行的所有塊都完成後繼續處理文件。 從概念上講,這些是每個文件的子流的序列。 'JoinBlock'看起來適合處理一組固定的輸入。 – nullPainter

+0

從你的問題來看,這並不明顯。這種情況可以通過不同的方式解決。例如,通過過濾塊或通過減少「MaxDegreeOfParallelism」。沒有你的代碼,很難幫助你。 – VMAtm