levenshtein-distance

    3熱度

    1回答

    我在計算用戶輸入的公司名稱與Fortune 1000列表之間的R的Levenshtein距離,但考慮到QWERTY的印刷錯誤。例如,Mcdimldes應與McDonalds的距離爲2,因爲i與o相鄰,並且m與n相鄰。 有一個實施,但在Python的其他嘗試(click here).任何幫助,非常感謝。 請讓我知道是否應該添加額外的細節來澄清問題。

    1熱度

    2回答

    我使用Rosetta Code的教程來計算Levenshtein距離。看起來他們的代碼是在Swift2中,所以我在執行此操作時得到這個錯誤Binary operator '+' cannot be applied to operands of type '[Int]' and 'Repeated<String.CharacterView>':var cur = [i + 2] + empty其中l

    1熱度

    1回答

    我想計算兩個任意序列之間的Levenshtein距離。 a <- 1:100 b <- c(1, 1:100) edit_distance(a, b) == 1 我知道adist功能和stringdist包,但他們只對特徵向量工作。如果序列中的符號數量很少,我可以將它們編碼爲字符並使用上述功能。 但是通常會有1000個不同的符號。另一種選擇是將它們編碼爲Unicode字符(adist適用

    1熱度

    1回答

    所以我試圖計算兩個大字符串(大約20-100)之間的距離。 障礙是性能,我需要運行20k距離比較。 (需要數小時) 經過調查,我發現了幾個算法,而且我很難決定選擇哪一個。 (基於性能VS準確度) https://github.com/tdebatty/java-string-similarity - 每個算法的性能列表。 ** ** EDITED 是SIFT4算法是一個良好的證明/可中繼? SIF

    0熱度

    1回答

    搜索是我當前應用程序中最重要的部分之一。它需要感覺像是一個快速,準確的全球搜索。該應用基於Firebase,我發現Firebase的equalTo()/ startAt()組合在這方面相當欠缺。 我想達到的目標: 按相關 下令由字匹配字結果(所以OO宗座外方傳教會應產生上述結果) 在多個屬性中搜索(因此põhjalapime應產生以上結果) 模糊搜索(萊文斯坦?) - pojala應符合Põhja

    3熱度

    3回答

    有沒有一種很好的方法來使用levenstein距離來匹配一個特定的字符串到第二個更長的字符串中的任何區域? 實施例: str1='aaaaa' str2='bbbbbbaabaabbbb' if str1 in str2 with a distance < 2: return True 所以在串2的上述例子中的部分是aabaa和distance(str1,str2) < 2所以

    -1熱度

    2回答

    我已經在MYSQL中安裝了this Levenshtein function。製造商建議使用此: select levenshtein('butt', 'but') from test; select levenshtein_ratio('butt', 'but') from test; 我想計算$之間,並在DB每個「名字」項的萊文斯坦比搜索,然後在PHP回聲它。 我該如何做到這一點?在此先

    1熱度

    1回答

    正如我在很多地方閱讀過的,ngram索引可以改善單詞搜索。 在這篇舊文章中,它說它可以適用於mysql,但它不會說如何:levenshtein alternative 任何人都可以把一些例子,因爲你可以在MySQL中使用這種技術? 可以使用這種技術來提高mysql的levenshtein函數的性能嗎? 我需要的是找到近似的文字(如萊文斯坦) 在我使用萊文斯坦()和levenshtein_ratio

    2熱度

    1回答

    假設我有一個字符串列表,它們是相似的。我想弄清楚所有這些字符串的共同部分或特徵。是否有一種已知的方法可以找出與給定集合中所有字符串最相似的字符串,並且不屬於該集合? 例如,如果我有以下組: Hello Hell Help Hepl '赫爾' 給出的一個2,1,1,1 Levenshtein距離。目前我正在考慮以不同的子字符串爲基礎,並計算距離(我的集合相當小,所以粗暴的強制不會成爲問題)

    1熱度

    1回答

    如果一個字符串接近表中的字符串,它會用表中的字符串取代嗎? 像一個拼寫檢查函數,它搜索一個表,如果輸入接近於表中的一個,它將修復它,所以表中的一個和字符串是相同的?