有沒有一種很好的方法來使用levenstein距離來匹配一個特定的字符串到第二個更長的字符串中的任何區域?Levenstein距離子串
實施例:
str1='aaaaa'
str2='bbbbbbaabaabbbb'
if str1 in str2 with a distance < 2:
return True
所以在串2的上述例子中的部分是aabaa
和distance(str1,str2) < 2
所以該語句應該返回True
。
我認爲這樣做的唯一方法是每次從str2中取5個字符,與str1進行比較,然後在str2中重複此操作。不幸的是,這看起來效率很低,我需要用這種方式處理大量的數據。
https://pypi.python.org/pypi/python-Levenshtein/ –
編輯距離只有5 lenght蘇「str2」的所有字符串(例如。兩個較短的,4個字符和更長的6個字符,其可能在1)的Levenstein距離處)? –
@ Mr.Xcoder這是我的想法,但我需要處理大約10GB的每一行文件,我認爲這會很慢。 –