2013-07-13 33 views
0

最近我一直在用大文本文件做一些工作。我已經將它們轉換爲CSV格式,|作爲quotechar,但我發現有時會在文本文件中重複出現整個句子 - 不一定一個接一個。句子可以有不同的長度。我的目標是從CSV文件中刪除重複的句子。澄清,它看起來像這樣:捕獲重複句子的正則表達式

|something irrelevant|,|sentence1| 
|something irrelevant|,|sentence2| 
|something irrelevant|,|sentence3| 
|something irrelevant|,|sentence4| 
... 
|something irrelevant|,|sentence100,000| 

其中一些第二列是重複。我有一些正則表達式的經驗,但我沒有看到我可以使用的東西。正則表達式是正確的方式來處理這個問題,還是有更好的選擇?任何意見將不勝感激。

+2

你是用編程語言處理這個嗎?哪一個?在文本編輯器中?哪一個?在其他一些環境?哪一個? –

+0

感謝您的迴應!我使用python + sublime text 2,使用scikit。我剛剛發現一篇文章,建議將CSV導入Excel並使用它刪除重複項。接下來我會嘗試一下。 –

回答

0

好的。我刪除從我的文本文件中的重複的句子如下:

  1. 轉化爲CSV格式
  2. 導入到Excel
  3. 使用列Excel的「刪除重複」功能,現在包含句子
  4. 導出爲CSV文件
  5. 轉換回文本

這可能不是做事情的最有效的方式,但它活像ks,並且很容易遵循。我之前浪費了很多時間編寫複雜的正則表達式並在python中搞亂,所以希望這可能會節省一些時間。