levenshtein-distance

27熱度

5回答

提高使用我有以下工作的Java代碼用於搜索對單詞的表中的詞和它完美的作品，並預期在Java中

Levenshtein距離搜索結果： public class Levenshtein { private int[][] wordMartix; public Set similarExists(String searchWord) { int maxDistance = searchWord.length(); int curDistance;

0熱度

1回答

加權編輯距離的相似矩陣

我想實現對基本編輯距離算法的修改。也就是加權編輯距離。（背景：拼寫錯誤，而試圖創建一個搜索引擎）例如，替換小號通過一個會比替換較小的成本小號，比方說，p。算法此使用DP將需要一個簡單的變化，即 d[i, j] := minimum(d[i-1, j] + 1, // deletion d[i, j-1] + 1, // insertion

1熱度

1回答

顯示Levenshtein距離的結果

給定兩個字符串（s1，s2），Levenshtein距離是將s1更改爲s2所需的最小操作次數，反之亦然。我想顯示將s1更改爲s2的結果。例如，更改星期日到星期六需要3次操作。我需要顯示S ++ u +日。「+」用於每個需要的操作。

0熱度

1回答

爲什麼這兩個琴絃的Levenshtein距離得分如此之低？

我正在使用Levenshtein距離算法來查找類似的字符串，並且我目前的接受分數爲12（因爲我的一些字符串最多有5個字）。但是，我很驚訝，看看下面的兩個字符串分數爲11，他們似乎對我來說非常不同.. def string1 = "Facial Fuel" def string2 = "Calendula Toner" println("Result is ${distance(string1

3熱度

1回答

如何通過Levenshtein算法（使用Javascript）使用動態編程

我試圖通過Levenshtein算法瞭解動態編程，但我一直堅持這幾個小時。我知道我在以下問題上的嘗試是'蠻力'之一。我將如何使用「動態編程」來改變我的方法？我幾乎失去了.... 問題：給定兩個字符串s和t，其中n和m的長度，創建一個函數，返回下列字符串之一：「插入C」如果字符串t可以通過插入字符C「刪除C」（與上述相同的邏輯）「交換cd」來獲得，如果字符串t可以通過交換出現在中的兩個相鄰字

1熱度

1回答

在audibook中爲字幕創建時間戳

我想添加時間戳來預訂句子，以適合相關的有聲讀物。理想地用各種語言。下面是一個例子：傲慢與偏見 text from gutenberg project audio from Librivox 我的想法是找到一個語音識別工具，使上句時間戳（步驟1），然後映射使用levenshtein距離對原始文本進行混亂的轉錄（步驟2）。網站https://speechlogger.appspot.com/提

2熱度

1回答

r stringdist或levenshtein.distance替換字符串

我有一個大型的數據集，有一百萬個觀察值，用一個已定義的觀察類型鍵入。在數據集中，有大約900,000個觀測類型異常的觀測，其中50個可接受的觀測類型有〜850個（不正確）的變化。 keys <- c("DAY", "EVENING","SUNSET", "DUSK","NIGHT", "MIDNIGHT", "TWILIGHT", "DAWN","SUNRISE", "MORNING") en

0熱度

1回答

什麼是地點的最佳距離度量標準

我在尋找一個「好的」/簡單的度量標準來識別類似的地點/用戶輸入到避免重複的複製。編輯距離做工不錯錯別字像麪包店 bekerry （編輯距離：2）但「失敗」爲交換的話聖厄休拉學校學校聖厄休拉（編輯距離：17）和補充企業嚴重企業嚴重股份有限公司

0熱度

1回答

R- adist花費太長時間運行

目前正與約25萬的數據集工作rows.The的utils的包adist功能數小時（8個）代碼中運行： master <- read.csv("Master.csv",header=TRUE) companies <- read.csv("Clean Companies.csv",header=TRUE) dirty<- subset(master,select=c("Company"))

4熱度

3回答

用於計算兩個字符串之間距離的算法

是否有任何字符串距離算法不考慮字詞的順序？以下算法不給所期望的結果（在該例子中，所希望的結果應該是1）： import jaro jaro.jaro_winkler_metric(u'Michael Jordan',u'Jordan Michael') >>>0.47 import Levenshtein Levenshtein.ratio('Michael Jordan', 'Jor