2013-05-09 60 views
1

我正在使用FuzzyWuzzy String Matching module from SeatGeekFuzzyWuzzy字符串匹配 - 區分大小寫

我發現當使用token_set_ratio搜索算法時,案例中的小差異會給出非常不同的結果。

例如,如果我在文件中查找「我正在吃東西」這個短語,我會得到100%的匹配。但是如果這句話是「我正在吃東西」,只是一個字母的變化,給我一個65%的比賽。

有什麼辦法讓算法不區分大小寫?

+0

你可以在所有東西上使用'.upper'? – 2013-05-09 13:39:09

回答

-1

token_set_ratio()默認情況下區分大小寫。

from fuzzywuzzy import fuzz 
fuzz.token_set_ratio("I am eating", "i am eating") 
=> 100 
0

如果你經歷的fuzzhere的原始代碼,你會發現,fuzz.token_set_ratio字符串轉換做序列匹配之前降低的情況。此外,您可能需要檢查SeatGeek工程師的這個計算器後置信息here,以便更清楚地瞭解比率使用情況。

希望這可以幫助