所以我處於違反直覺的情況,我想獲得一些建議。 大部分我只是做一些字符串匹配,使用提取的字符串作爲我的正則表達式的模式。雖然一般情況下,我可以用模糊正則表達式搜索做得很好,但偶爾會遇到這種情況: 比方說,我從一些數據(Python正則表達式包)中提取了以下模式。 pattern = 'the quick brown fox jumps over the lazy dog'
現在,我需要有與之相匹
我試圖將600,000個人姓名(全名)匹配到擁有超過8700萬個觀察值(全名)的另一個數據庫! 我與fuzzywuzzy庫第一次嘗試這樣太慢了,所以我決定用模塊fuzzyset這是要快得多。假如我有足夠強大的計算機載入內存中的所有數據集,我所做的有964個觀察測試文件中的下列反對50000個意見匹配: import time
from cfuzzyset import cFuzzySet as