levenshtein-distance

    27熱度

    5回答

    Levenshtein距離搜索結果: public class Levenshtein { private int[][] wordMartix; public Set similarExists(String searchWord) { int maxDistance = searchWord.length(); int curDistance;

    0熱度

    1回答

    我想實現對基本編輯距離算法的修改。也就是加權編輯距離。 (背景:拼寫錯誤,而試圖創建一個搜索引擎) 例如,替換小號通過一個會比替換較小的成本小號,比方說,p。 算法此使用DP將需要一個簡單的變化,即 d[i, j] := minimum(d[i-1, j] + 1, // deletion d[i, j-1] + 1, // insertion

    1熱度

    1回答

    給定兩個字符串(s1,s2),Levenshtein距離是將s1更改爲s2所需的最小操作次數,反之亦然。 我想顯示將s1更改爲s2的結果。例如,更改星期日到星期六需要3次操作。我需要顯示S ++ u +日。 「+」用於每個需要的操作。

    0熱度

    1回答

    我正在使用Levenshtein距離算法來查找類似的字符串,並且我目前的接受分數爲12(因爲我的一些字符串最多有5個字)。但是,我很驚訝,看看下面的兩個字符串分數爲11,他們似乎對我來說非常不同.. def string1 = "Facial Fuel" def string2 = "Calendula Toner" println("Result is ${distance(string1

    3熱度

    1回答

    我試圖通過Levenshtein算法瞭解動態編程,但我一直堅持這幾個小時。我知道我在以下問題上的嘗試是'蠻力'之一。我將如何使用「動態編程」來改變我的方法?我幾乎失去了.... 問題:給定兩個字符串s和t,其中n和m的長度,創建一個 函數,返回下列字符串之一:「插入C」如果 字符串t可以通過插入字符C「刪除C」 (與上述相同的邏輯)「交換cd」來獲得,如果字符串t可以通過交換出現在 中的兩個相鄰字

    1熱度

    1回答

    我想添加時間戳來預訂句子,以適合相關的有聲讀物。 理想地用各種語言。 下面是一個例子: 傲慢與偏見 text from gutenberg project audio from Librivox 我的想法是找到一個語音識別工具,使上句時間戳(步驟1),然後映射使用levenshtein距離對原始文本進行混亂的轉錄(步驟2)。 網站https://speechlogger.appspot.com/提

    2熱度

    1回答

    我有一個大型的數據集,有一百萬個觀察值,用一個已定義的觀察類型鍵入。在數據集中,有大約900,000個觀測類型異常的觀測,其中50個可接受的觀測類型有〜850個(不正確)的變化。 keys <- c("DAY", "EVENING","SUNSET", "DUSK","NIGHT", "MIDNIGHT", "TWILIGHT", "DAWN","SUNRISE", "MORNING") en

    0熱度

    1回答

    我在尋找一個「好的」/簡單的度量標準來識別類似的地點/用戶輸入到避免重複的複製。 編輯距離做工不錯錯別字像 麪包店 bekerry (編輯距離:2) 但 「失敗」 爲交換的話 聖厄休拉學校 學校聖厄休拉 (編輯距離:17) 和補充 企業嚴重 企業嚴重股份有限公司

    0熱度

    1回答

    目前正與約25萬的數據集工作rows.The的utils的包adist功能數小時(8個) 代碼中運行: master <- read.csv("Master.csv",header=TRUE) companies <- read.csv("Clean Companies.csv",header=TRUE) dirty<- subset(master,select=c("Company"))

    4熱度

    3回答

    是否有任何字符串距離算法不考慮字詞的順序? 以下算法不給所期望的結果(在該例子中,所希望的結果應該是1): import jaro jaro.jaro_winkler_metric(u'Michael Jordan',u'Jordan Michael') >>>0.47 import Levenshtein Levenshtein.ratio('Michael Jordan', 'Jor