我有一個包含降價的40-50文本文件的集合。其中一些包含重複的單詞,句子和段落。我正在尋找一個腳本/算法來掃描文件,並幫助我確定匹配(或接近匹配)。我在哪裏可以找到這樣的事情?在線搜索這種類型的東西會產生其他類型問題的結果,但不是這個。將不勝感激任何線索,以幫助我縮小我的搜索範圍...使用Python查找和刪除文件集合中的重複文本
0
A
回答
1
基本上,一個簡單的蠻力可以解決您的所有問題。但是您應該考慮另一種算法取決於您的需求(時序,內存,...):Boyer-Moore,Rabin-Karp字符串搜索算法,Knuth-Morris-Pratt算法。
+0
謝謝!這正是我需要更好地定義問題域並繼續搜索的答案。我會在這裏發佈更多關於我所找到的信息。 – rolfedh
相關問題
- 1. 使用vb.net從文本文件中查找和刪除重複文件
- 2. 使用python查找和刪除文件中行中的重複單詞
- 3. 使用python腳本查找和刪除文件
- 4. 使用Python查找重複文件
- 5. 使用python查找重複文件
- 6. MongoDB查詢刪除集合中的重複文檔
- 7. VBS腳本查找和刪除文件
- 8. 在文本編輯器中使用查找和替換刪除重複值
- 9. 你如何刪除重複的話,使用Python中的文本文件?
- 10. 從文本文件中刪除空行和重複的行
- 11. 從文本文件中刪除重複和周圍的線
- 12. 如何使用LINQ查找並刪除集合中的重複對象?
- 13. 查找並刪除csproj文件中的重複條目
- 14. Solaris從文件中查找 - 刪除重複的條目
- 15. 使用shell在文本文件中查找重複條目
- 16. 合併兩個文本文件刪除重複
- 17. 合併多個文本文件並刪除重複項
- 18. 如何使用ruby查找並刪除重複的mongo文檔
- 19. 查找文本並使用jQuery刪除
- 20. 用於排序和重命名文件的Python腳本 - 刪除重複項
- 21. 刪除重複的文件
- 22. 刪除重複文本
- 23. 用php刪除文本文件中的重複名稱
- 24. 刪除集合中的重複項
- 25. 刪除集合中的重複值
- 26. 刪除集合中的重複項
- 27. 使用ant刪除重複文件?
- 28. 使用Awk刪除重複文件
- 29. 從BIG文本文件中刪除重複文件
- 30. 使用LINQ查找/刪除重複項
您的問題陳述不是非常具體。你想要重複的單詞,句子或段落嗎?你想要比賽還是接近比賽?這裏的不同答案會導致不同的算法。 –
也許考慮包括你發現的一些在線結果,並告訴我們這些其他類型的問題與這個問題有什麼不同或者可能是相似的 - 這將幫助我們縮小你的問題的範圍,所以我們可以幫助 – davedwards
Thanks @Rory_Daulton To be更具體地說,我正在尋找一個腳本/算法來掃描多個文件,並確定重複序列的長度從7到70個字長度不等的單詞。確定近似匹配(包含高達15%的變化)會很好(可選)。我之前的搜索結果與此目標完全無關。 – rolfedh