levenshtein-distance

0熱度

2回答

這個問題的依據是我昨天的回答question。爲了解決我的問題，Jean-FrançoisCorbett suggested採用了Levenshtein距離方法。然後我找到了這個代碼來獲得Levenshtein距離百分比。 Public Function GetLevenshteinPercentMatch(_ ByVal string1 As String, ByVal string

2熱度

3回答

更好的模糊匹配性能？

我目前使用從difflib方法get_close_matches方法通過15000個字符串列表進行迭代，以獲得最匹配的對大約15000串的另一個列表： a=['blah','pie','apple'...] b=['jimbo','zomg','pie'...] for value in a: difflib.get_close_matches(value,b,n=1,cuto

1熱度

2回答

模糊匹配字符串中的多個單詞

我試圖使用Levenshtein Distance的幫助來在OCR頁面上查找模糊關鍵字（靜態文本）。要做到這一點，我想給出一個允許的錯誤百分比（比如15％）。 string Keyword = "past due electric service"; 由於關鍵字是25個字符長，我想允許4個錯誤（25 * 0.15四捨五入）我需要能夠比較它... string Entire_OCR_Page

1熱度

2回答

攀爬算法在Python中使用Levenshtein距離作爲啓發式生成一個字符串？

我一直在關注這個ebook，我停留在他們的自我檢查的問題，它繼續像這樣的：自我檢查這裏有一個自我檢查，真正涵蓋了目前爲止。你可能有聽說過無限猴子定理？該定理指出，在打字機鍵盤上隨機敲擊鍵的猴子時間幾乎肯定會鍵入給定文本，例如威廉莎士比亞的完整作品。那麼，假設我們用Python函數替換了一隻猴子。你認爲用Python 函數生成一個莎士比亞的句子需要多長時間？我們就開槍了一句是：「記錯它像

4熱度

1回答

如何有效識別大型數據集中的相似但不相同的字符串？

假設我有成千上萬的字符串，我需要確定最常見的組。這裏有一個樣本數據集：http://pastebin.com/XGijjsfE 第10行此數據集的代表，我之後的字符串類型。儘管在現實生活中這些會與其他的混合在一起。一種策略是循環遍歷每個字符串，並使用字符串比較工具將其與其他每個字符串進行比較，並跟蹤高度相似性。這裏有一些僞php代碼來說明這一點： <?php $arr = explode("

0熱度

1回答

Levenshtein成本設置

我被要求猜想當部分預期數據丟失時，用戶意圖。例如，如果我想要獲得very well或not very well，但我只能獲得not，則應將其標記爲not very well。爲not和very well的Levenshtein距離是9和not和not very well的距離爲10。我想我實際上是試圖用扳手驅動螺絲釘，但我們已經同意在我們的團隊中使用Levenshtein來處理這種情況。正如你

1熱度

1回答

Levenshtein Python中的距離循環

我有一組參考詞（拼寫正確），我需要輸入一個用戶輸入詞。使用levenshtein距離將輸入詞與參考列表進行比較，我需要從參考列表中返回具有最低成本的詞。此外，該參考列表按頻率排序，因此較高的頻率出現在頂部。如果2個字的距離相同，則返回頻率更高的字。「NWORDS」是我根據頻率排序的參考列表。「候選人」是用戶輸入的單詞。代碼： for word in NWORDS: #iterate over

1熱度

2回答

在Bigram頻率的基礎上替換單詞，Python

我有一個系列類型的對象，我必須應用一個函數，它使用bigrams糾正單詞，以防與另一個單詞發生匹配。我創建了一個bigrams列表，按照頻率對它進行排序（最高優先）並將其稱爲fdist。 bigrams = [b for l in text2 for b in zip(l.split(" ")[:-1], l.split(" ")[1:])] freq = nltk.FreqDist(bigra

1熱度

2回答

使用Levenshtein距離確定數組中是否存在相似的字符串

例如，我有一個名爲referenceArray的字符串數組。我現在有一個字符串str。我想檢查referenceArray中的任何元素是否與str類似。我可以計算referenceArray和str的每個元素之間的Levenshtein距離，並選擇距離最小的元素。但是，這種方法的問題是我還需要知道referenceArray中的元素是否都與str類似。所以在這種情況下選擇距離最小的元素將是錯誤的

0熱度

4回答

PHP - 查找兩段文本之間的匹配詞的數量？

我想找到兩個文本例 $str1=the cat is on the roof $str2=the mouse is on the roof 之間的類似的詞數，就是對的，屋頂話是$ str1和$ str2的類似因此輸出將是5號或百分比86％我嘗試了similar_text（）函數，但是這個函數不能像我想要的那樣工作。