levenshtein-distance

    0熱度

    2回答

    這個問題的依據是我昨天的回答question。 爲了解決我的問題,Jean-FrançoisCorbett suggested採用了Levenshtein距離方法。然後我找到了這個代碼來獲得Levenshtein距離百分比。 Public Function GetLevenshteinPercentMatch(_ ByVal string1 As String, ByVal string

    2熱度

    3回答

    我目前使用從difflib方法get_close_matches方法通過1​​5000個字符串列表進行迭代,以獲得最匹配的對大約15000串的另一個列表: a=['blah','pie','apple'...] b=['jimbo','zomg','pie'...] for value in a: difflib.get_close_matches(value,b,n=1,cuto

    1熱度

    2回答

    我試圖使用Levenshtein Distance的幫助來在OCR頁面上查找模糊關鍵字(靜態文本)。 要做到這一點,我想給出一個允許的錯誤百分比(比如15%)。 string Keyword = "past due electric service"; 由於關鍵字是25個字符長,我想允許4個錯誤(25 * 0.15四捨五入) 我需要能夠比較它... string Entire_OCR_Page

    1熱度

    2回答

    我一直在關注這個ebook,我停留在他們的自我檢查的問題,它繼續像這樣的: 自我檢查 這裏有一個自我檢查,真正涵蓋了目前爲止。你可能有 聽說過無限猴子定理?該定理指出,在打字機鍵盤上隨機敲擊鍵的猴子 時間幾乎肯定會鍵入給定文本,例如威廉莎士比亞的完整作品 。那麼,假設我們用Python函數替換了一隻猴子。你認爲用Python 函數生成一個莎士比亞的句子需要多長時間?我們就開槍了一句 是:「記錯它像

    4熱度

    1回答

    假設我有成千上萬的字符串,我需要確定最常見的組。 這裏有一個樣本數據集:http://pastebin.com/XGijjsfE 第10行此數據集的代表,我之後的字符串類型。儘管在現實生活中這些會與其他的混合在一起。 一種策略是循環遍歷每個字符串,並使用字符串比較工具將其與其他每個字符串進行比較,並跟蹤高度相似性。這裏有一些僞php代碼來說明這一點: <?php $arr = explode("

    0熱度

    1回答

    我被要求猜想當部分預期數據丟失時,用戶意圖。例如,如果我想要獲得very well或not very well,但我只能獲得not,則應將其標記爲not very well。 爲not和very well的Levenshtein距離是9和not和not very well的距離爲10。我想我實際上是試圖用扳手驅動螺絲釘,但我們已經同意在我們的團隊中使用Levenshtein來處理這種情況。 正如你

    1熱度

    1回答

    我有一組參考詞(拼寫正確),我需要輸入一個用戶輸入詞。使用levenshtein距離將輸入詞與參考列表進行比較,我需要從參考列表中返回具有最低成本的詞。此外,該參考列表按頻率排序,因此較高的頻率出現在頂部。如果2個字的距離相同,則返回頻率更高的字。 「NWORDS」是我根據頻率排序的參考列表。 「候選人」是用戶輸入的單詞。 代碼: for word in NWORDS: #iterate over

    1熱度

    2回答

    我有一個系列類型的對象,我必須應用一個函數,它使用bigrams糾正單詞,以防與另一個單詞發生匹配。我創建了一個bigrams列表,按照頻率對它進行排序(最高優先)並將其稱爲fdist。 bigrams = [b for l in text2 for b in zip(l.split(" ")[:-1], l.split(" ")[1:])] freq = nltk.FreqDist(bigra

    1熱度

    2回答

    例如,我有一個名爲referenceArray的字符串數組。我現在有一個字符串str。我想檢查referenceArray中的任何元素是否與str類似。我可以計算referenceArray和str的每個元素之間的Levenshtein距離,並選擇距離最小的元素。 但是,這種方法的問題是我還需要知道referenceArray中的元素是否都與str類似。所以在這種情況下選擇距離最小的元素將是錯誤的

    0熱度

    4回答

    我想找到兩個文本 例 $str1=the cat is on the roof $str2=the mouse is on the roof 之間的類似的詞數,就是對的,屋頂話是$ str1和$ str2的類似 因此輸出將是5號或百分比86% 我嘗試了similar_text()函數,但是這個函數不能像我想要的那樣工作。