我試圖從大文本文件(大約3GB)中刪除不需要的字符。我試圖在整個文件中刪除不需要的前進和反斜槓。我想保留字之間的Tilde,它作爲分隔符。該文件格式是這樣的:Python清理數據
Cornet~Chris Tyle
Cornet\~Warren Vache
Cornet~Roger Webster
Cornet~\Grimethorpe Coll//iery Band
Cornet/~Daniel Rollston
Cornet~Murley Silver Band
Chocolate~Chocolate liquor
Chocolate~Theobroma cacao
Chocolate~Meso/america
所以在上面的例子我想刪除所有的前進/後退斜線等等字眼是可讀的(同時保持波浪線)。我會爲此使用Python Regex表達式嗎?另一種可能性是刪除包含斜線的行,但我想把它作爲最後一種方式。
**編輯:抱歉忘了提一件事!某些行顯示如下:
Chocolate~
Chocolate~Theobroma cacao
~Mesoamerica
我也必須刪除所有之前或波浪線除了去除前進和後退後的空行斜線**
謝謝您幫幫我!
Python是矯枉過正這一點,那就拿,就像...五線! 'tr -d/\\ < dirty.txt > clean.txt' – Amadan
我知道你的意思。如果我不需要,我不會使用python! – lsch91
更新了新的需求:'tr -d/\\ clean.txt'。我不明白爲什麼你必須*使用Python,除非它是作業;和家庭作業通常不涉及3GB文件... –
Amadan