2017-08-21 88 views
0

我有一個包含降價的40-50文本文件的集合。其中一些包含重複的單詞,句子和段落。我正在尋找一個腳本/算法來掃描文件,並幫助我確定匹配(或接近匹配)。我在哪裏可以找到這樣的事情?在線搜索這種類型的東西會產生其他類型問題的結果,但不是這個。將不勝感激任何線索,以幫助我縮小我的搜索範圍...使用Python查找和刪除文件集合中的重複文本

+2

您的問題陳述不是非常具體。你想要重複的單詞,句子或段落嗎?你想要比賽還是接近比賽?這裏的不同答案會導致不同的算法。 –

+2

也許考慮包括你發現的一些在線結果,並告訴我們這些其他類型的問題與這個問題有什麼不同或者可能是相似的 - 這將幫助我們縮小你的問題的範圍,所以我們可以幫助 – davedwards

+0

Thanks @Rory_Daulton To be更具體地說,我正在尋找一個腳本/算法來掃描多個文件,並確定重複序列的長度從7到70個字長度不等的單詞。確定近似匹配(包含高達15%的變化)會很好(可選)。我之前的搜索結果與此目標完全無關。 – rolfedh

回答

1

基本上,一個簡單的蠻力可以解決您的所有問題。但是您應該考慮另一種算法取決於您的需求(時序,內存,...):Boyer-Moore,Rabin-Karp字符串搜索算法,Knuth-Morris-Pratt算法。

+0

謝謝!這正是我需要更好地定義問題域並繼續搜索的答案。我會在這裏發佈更多關於我所找到的信息。 – rolfedh