2013-05-30 20 views
-1

我使用兩個互斥的正則表達式來篩選幾行非常大的csv文件(每行大約2400萬行)。我無法分享正則表達式或文件(不是你永遠不想下載它們)。grep導致原始文件有更多行

的想法是,正則表達式匹配一個的行得到管道輸送到正則表達式匹配B中得到管道輸送到文件B.文件A.行

我結束了在目標文件約500萬額外行後此過程完成。

正則表達式保證是互斥的,行數是正確的。

該任務正在Amazon EC2節點上運行。在雲中運行grep時有沒有人看到過這種問題?

+0

顯示你的grep語句... –

+0

OK ...它是這樣的: 的grep 「^ X」 someFile.csv >> FileA.csv 的grep 「^ Y」 someFile.csv >> FileB.csv 所有行都以x或y開頭。 – user2434536

+0

你是說你得到不符合正則表達式的行嗎? – Barmar

回答

0

使用awk反而似乎解決了這個問題。

謝謝Barmar!