我正在嘗試使用模糊匹配將對驗證集的響應列表對齊。模糊匹配 - 返回測試字符串的最佳潛在值
我使用下面的代碼:
for x in rawDatabase.Status:
choice = process.extractOne(x, my_list)
print('choice ',choice)
凡在rawDatabase
數據幀中的狀態欄是我試圖驗證列。 my_list
是要鎖定的Status
列中的條目的標準化值列表。
使用上面的代碼中,我得到了下面的示例輸出:
choice ('TRANSFER IN FROM GOVERNMENT DEPARTMENT', 100, 39)
choice ('TRANSFER OUT TO GOVERNMENT DEPARTMENT', 100, 40)
choice ('CURRENT', 100, 1)
choice ('LEAVER - RETIRED', 100, 12)
choice ('CURRENT', 100, 1)
有沒有一種方法可以讓我回到最適合該字符串被更新後的值進行測試和更新rawDatabase
狀態列中的值?因此,例如,我就會回到
choice = 'TRANSFER IN FROM GOVERNMENT DEPARTMENT'
choice = 'TRANSFER OUT TO GOVERNMENT DEPARTMENT'
choice = 'CURRENT'
choice = 'LEAVER - RETIRED'
choice = 'CURRENT'
[在Python模糊字符串比較,與使用哪個混淆庫(可能的重複https://stackoverflow.com/questions/6690739/fuzzy-string-comparison-in-python -with-library-to-use) – Jan
使用'Levenshtein'距離或'difflib'。 – Jan