0
最近我一直在用大文本文件做一些工作。我已經將它們轉換爲CSV格式,|
作爲quotechar,但我發現有時會在文本文件中重複出現整個句子 - 不一定一個接一個。句子可以有不同的長度。我的目標是從CSV文件中刪除重複的句子。澄清,它看起來像這樣:捕獲重複句子的正則表達式
|something irrelevant|,|sentence1|
|something irrelevant|,|sentence2|
|something irrelevant|,|sentence3|
|something irrelevant|,|sentence4|
...
|something irrelevant|,|sentence100,000|
其中一些第二列是重複。我有一些正則表達式的經驗,但我沒有看到我可以使用的東西。正則表達式是正確的方式來處理這個問題,還是有更好的選擇?任何意見將不勝感激。
你是用編程語言處理這個嗎?哪一個?在文本編輯器中?哪一個?在其他一些環境?哪一個? –
感謝您的迴應!我使用python + sublime text 2,使用scikit。我剛剛發現一篇文章,建議將CSV導入Excel並使用它刪除重複項。接下來我會嘗試一下。 –