這個問題的依據是我昨天的回答question。 爲了解決我的問題,Jean-FrançoisCorbett suggested採用了Levenshtein距離方法。然後我找到了這個代碼來獲得Levenshtein距離百分比。 Public Function GetLevenshteinPercentMatch(_
ByVal string1 As String, ByVal string
我目前使用從difflib方法get_close_matches方法通過15000個字符串列表進行迭代,以獲得最匹配的對大約15000串的另一個列表: a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cuto
我被要求猜想當部分預期數據丟失時,用戶意圖。例如,如果我想要獲得very well或not very well,但我只能獲得not,則應將其標記爲not very well。 爲not和very well的Levenshtein距離是9和not和not very well的距離爲10。我想我實際上是試圖用扳手驅動螺絲釘,但我們已經同意在我們的團隊中使用Levenshtein來處理這種情況。 正如你
我有一組參考詞(拼寫正確),我需要輸入一個用戶輸入詞。使用levenshtein距離將輸入詞與參考列表進行比較,我需要從參考列表中返回具有最低成本的詞。此外,該參考列表按頻率排序,因此較高的頻率出現在頂部。如果2個字的距離相同,則返回頻率更高的字。 「NWORDS」是我根據頻率排序的參考列表。 「候選人」是用戶輸入的單詞。 代碼: for word in NWORDS: #iterate over
我有一個系列類型的對象,我必須應用一個函數,它使用bigrams糾正單詞,以防與另一個單詞發生匹配。我創建了一個bigrams列表,按照頻率對它進行排序(最高優先)並將其稱爲fdist。 bigrams = [b for l in text2 for b in zip(l.split(" ")[:-1], l.split(" ")[1:])]
freq = nltk.FreqDist(bigra
我想找到兩個文本 例 $str1=the cat is on the roof
$str2=the mouse is on the roof
之間的類似的詞數,就是對的,屋頂話是$ str1和$ str2的類似 因此輸出將是5號或百分比86% 我嘗試了similar_text()函數,但是這個函數不能像我想要的那樣工作。