2014-09-05 84 views
2

我使用difflib SequenceMatcher(ratio()方法)來定義文本文件之間的相似度。雖然difflib比較快速以比較一小組文本文件,例如平均70 kb的10個文件比較(46次比較)大約需要80秒。Python的difflib SequenceMatcher加速

這裏的問題是,我有一個3000 txt文件(平均75 kb)的集合,對SequenceMatcher完成比較作業需要多少時間的原始估計是80天!

我嘗試過「real_quick_ratio()」和「quick_ratio()」方法,但它們不適合我們的需要。

有什麼辦法可以加快比較過程嗎? 如果不是,還有沒有其他更快的方法來完成這樣的任務?即使它不在Python中。

回答