我正在嘗試構建數據流管道以處理包含跨越多行的事件的文本文件。數據流SDK TextIO類假定每行都是新事件。從數據流中的文本文件處理多行事件
我的計劃是創建一個新的TextReader並將其註冊到DataPipelineRunner。這位新讀者將知道如何將多條線路聚合成一條線路。
我很確定這種方法可行,但我想知道這是否是正確的方法或者是否有更簡單的解決方案?
我試圖解析的文字是:
==============> len:45 pktype:4 mtype:2
SYMBOL: USOCSTIA151632.00
OPEN_INT: 212
PR_OPEN_INTEREST: 212
TIME_STAMP: 04/10/2015 06:30:17:420 val:1428661817
結果應該是最後的4線連接到一起,並在第一線下降。
最好的問候, 彼得
還有幾個問題:1)你有很多小文件,還是你的文件很大? (即是否要在一個文件中並行處理)2)可以通過查找「==============」來檢測文件中記錄的開頭是否正確>「? – jkff
有很多大型(200G +)文件需要處理。以「===>」開頭的行確實表示有新的記錄,但我需要將該行從輸出中刪除。 –
謝謝!我相應地更新了我的答案。 – jkff