我目前使用從difflib方法get_close_matches方法通過15000個字符串列表進行迭代,以獲得最匹配的對大約15000串的另一個列表:更好的模糊匹配性能?
a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cutoff=.85)
它每值,這意味着它需要0.58秒將花費8,714秒或145分鐘來完成循環。是否有另一種庫/方法可能會更快或者提高此方法的速度?我已經嘗試將兩個陣列轉換爲小寫字母,但它只會導致略微提高速度。
比賽結束後,您可以嘗試從列表b中刪除元素 – user1209304