levenshtein-distance

    6熱度

    2回答

    有沒有可能在正則表達式查詢中如何包含levenshtein距離? 除了在排列之間進行聯合之外。喜歡用L.d.搜索「hello」。 1 .ello | h.llo | he.lo | hel.o | hell. 這是一個很大的愚蠢和不可用的L.d.較大的數字。

    10熱度

    1回答

    問題: 幾個R包的特點Levenshtein距離實現計算兩個字符串的相似性,例如, http://finzi.psych.upenn.edu/R/library/RecordLinkage/html/strcmp.html。計算的距離可以容易地對於字符串長度進行歸一化,例如,將Levenshtein距離除以所涉及的最長弦的長度或將其除以兩個弦的長度的平均值。然而,對於語言學中的一些應用(例如方言測

    0熱度

    2回答

    我的序列是從0和1開始構建的。我想以某種方式測量它們與目標字符串的距離。但目標字符串不完整。 數據我有,其中,x是目標串,的實施例中,[0]表示的至少一個'0'的次數: x =11[0]1111[0]1111111[0]1[0]`, the length of x is fixed and eaquel to length of y. y1=11110111111000000101010110

    1熱度

    2回答

    我的問題與Algorithm to transform one word to another through valid words相似 但是與主要區別在於,我有一個固定的詞說「詹姆斯」和不同的詞典作爲我/ P。當然,我現在不能預處理字典。 所以我必須找到處理「JAMES」到「JOHNY」以不同詞典作爲輸入的最低成本。 是否有反正我可以預處理單詞「JAMES」,這樣我需要在運行時執行最少數量的編

    1熱度

    1回答

    我正在尋找一種使用語音識別從網頁下拉列表中選擇條目的方法。 我最初的想法是在input type="text"元素中使用Google的x-webkit-speech。然後當onwebkitspeechchange事件被觸發時,爲每個下拉條目計算Levenshtein distance - 然後選擇最小值。 一個細節是我寧願隱藏文本框,所以它看起來你是選擇麥克風選擇元素。 (還沒有嘗試過,但我認爲它

    16熱度

    5回答

    我想使用Levenshtein距離算法將匹配單個搜索項與可能匹配的字典進行匹配。算法返回一個距離,表示爲將搜索字符串轉換爲匹配字符串所需的操作次數。 我想將結果呈現在排名最高的「N」(比如說10)匹配的百分比列表中。 由於搜索字符串可能比單個字典字符串更長或更短,因此將以百分比形式表示距離的適當邏輯將定性反映「查詢結果」對查詢的每個結果的接近程度字符串,100%表示完全匹配。 我考慮以下選項: Q

    2熱度

    1回答

    我使用Levenshtein距離算法比較作爲用戶輸入提供的公司名稱與已知公司名稱的數據庫以找到最接近的匹配項。本身,算法工作正常,但我想建立一個偏差,以便編輯距離被認爲是較低的,如果字符串的初始部分匹配。 例如,如果搜索條件是「ABCD」,那麼「ABCD Co.」和「XYX ABCD」具有相同的編輯距離。不過,我想增加一個事實,即第一個字符串的起始部分與第二個字符串的搜索條件更緊密匹配。 這樣做的

    2熱度

    3回答

    我使用Levenshtein距離在OCR後查找類似的字符串。但是,對於某些字符串,編輯距離相同,但視覺外觀明顯不同。 例如字符串Co將返回這些比賽: CY (1) CZ (1) Ca (1) 考慮,即Co是從OCR引擎的結果,Ca會比那些更可能的匹配。因此,在計算Levenshtein距離之後,我想通過視覺相似性排序來優化查詢結果。爲了計算這種相似性,我想使用標準的無襯線字體,如Arial

    1熱度

    2回答

    我正在使用比較來確定模糊匹配的腳本,所以我使用了Levenshtein功能。 不幸的是,當我在終端窗口中運行easy_install python-Levenshtein時,Python在我運行導入時仍然無法識別Levenshtein。當我看到終端窗口,我得到的錯誤代碼,這些列表(我認爲這是到哪裏去錯誤): Processing python-Levenshtein-0.10.2.tar.gz R

    2熱度

    2回答

    我已經實現了使用樹結構樹的Levenshtein距離算法,如Steve Hanov所述。 但是,我在處理特殊字符時遇到了困難。例如,如果我計算Großmann和Grossmann之間的距離,我需要距離爲零,因爲ß和ss應該被認爲是相等的。 什麼是最好的解決方案(如果有)來支持這些特殊情況。 我最初的想法是在計算距離之前對所有字符串進行歸一化處理。 所以在Großmann - > Grossman,