我有一個清潔併合併爲一個CSV文件中的兩個數據幀,數據幀都是這樣 **Source Master**
chang chun petrochemical CHANG CHUN GROUP
chang chun plastics CHURCH AND DWIGHT CO INC
church dwight CITRIX SYSTEMS ASIA PACIFIC P L
我正在嘗試使用Jellyfish來處理模糊字符串。我注意到Damerau–Levenshtein distance算法的一些奇怪行爲。例如: import jellyfish as jf
In [0]: jf.damerau_levenshtein_distance('ZX', 'XYZ')
Out[0]: 3
In [1]: jf.damerau_levenshtein_distance(
我目前使用從difflib方法get_close_matches方法通過15000個字符串列表進行迭代,以獲得最匹配的對大約15000串的另一個列表: a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cuto