我有一個「壞」選項卡分開的文件,我需要清理。問題在於田地可能有換行。我認爲解決這個問題最簡單的方法就是用一些替換字符替換錯誤的換行符,比如空格。現在我能想象的方式來做到這一點,如果有應該是在第n行的字段將是(僞)解析錯誤的CSV
var line = read n-1 fields ending in a tab, and then until the end of line
line.replace("\n", " ")
line.replace("\r", " ")
write line to output
現在,這些文件是巨大的,他們啜是不是一種選擇。這是一個合理的方法嗎? (我知道這將在最後一個領域的線性突破中脫穎而出,但我願意忍受這一點) 什麼是讀取足夠數據的好方法?我不在乎它使用哪種語言,但更喜歡.net,perl或python2,因爲我有可用的運行時。
如果文件不是*可怕*大,我只是在Vim的做。如果是這樣,那麼我個人會用Python來做。你的方法對我來說似乎很好。 –
以千兆字節爲單位。我不寒而慄。 – Martijn