levenshtein-distance

    0熱度

    1回答

    我有一個字符串/敘述的列表,我需要比較並獲得每個字符串之間的距離度量值。我寫的當前代碼的作品,但是因爲我使用2 for循環,所以需要更長的列表。我用levenshtien距離來衡量琴絃之間的距離。 字符串/敘述的列表存儲在數據框中。 def edit_distance(s1, s2): m=len(s1)+1 n=len(s2)+1 tbl = {} fo

    -3熱度

    2回答

    我需要從SQLite數據庫中選擇數據。但是,我有一個搜索字段,用戶可以在其中輸入位置的名稱。因爲他們可能錯誤地輸入這個名字,我需要能夠根據這個從數據庫中提取相關的記錄。 例如: 輸入:摩天Whrrl 實際:摩天輪 應該儘管錯字正確定位的摩天輪項目。我意識到editdist3沒有在Android SQLite中實現。我寧願不選擇整個數據庫到RAM中並遍歷所有字符串,並手動計算Levenshtein距

    3熱度

    1回答

    我有一組數據。第一個(A)是具有複雜名稱的設備列表。第二個是更廣泛的設備類別列表(B) - 我必須將第一個列表分組爲使用字符串比較。我知道這不會是完美的。 對於列表A中的每個實體 - 我想爲列表B中的每個實體建立levenshtein距離。列表B中具有最高分數的記錄將是我將要分配該數據點的組。 我在python中很生鏽 - 我正在玩FuzzyWuzzy來獲得兩個字符串值之間的距離。然而 - 我無法

    1熱度

    1回答

    如果我有名字的一個載體,說: a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") 我想使用levenshteinSim或類似的得到這個矢量中的相似性得分。但是,我不想讓它自我評分。例如,"tom" #1得分爲"tom" #3。並且不要爲"tom" #1反對"tom" #1得分,所以不要

    1熱度

    1回答

    我有一個問題,我們可以通過將e.d值除以兩個字符串的長度來規範levenshtein編輯距離嗎? 我在問這個,因爲如果我們比較兩個不等長的字符串,那麼兩者的長度之間的差異也會被計算在內。 例如: ed('has a','has a ball')= 4 and ed('has a','has a ball is is round')= 15 如果我們增加字符串的長度,即使它們相似,編輯距離也會增加。

    1熱度

    1回答

    我正在運行模糊匹配算法,它允許兩個字符串通過Levenshtein度量標準有一個單獨的差異。但是,當兩個相繼字母調換頻繁錯字: 喬吶比 - >喬的比 專業圖片SI Onal地區 - >專業圖片是 Onal地區 但這些不同之處由Levenshtein給出2。我怎樣才能匹配那些不同呢?

    1熱度

    2回答

    如何在R中對單詞(非字符)Level進行Levenshtein距離測量? 參見以下: 預期結果1) # levenshtein operations needed: Delete*2 --> 2 operations array1 <- c("word", "car") array2 <- c("word", "pool", "beer", "car") 我正在尋求的功能levenshte

    0熱度

    1回答

    我已經通過R功能adist,agrep,match和stringdist進行了搜索,但還沒有找到用分隔符計算編輯距離的方法。 現有的編輯距離: 「that」 & 」fat」 = 2 i.e., adist("that","fat") 所需的功能會使用分隔表示多字符單位: 「th.a.t」 & 」f.a.t」 = 1

    6熱度

    3回答

    假設我有一個大字符串和一個子字符串數組,當它們與大字符串相等時(差別很小)。 例如(注意字符串之間的細微差別): large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string" sub_strs

    2熱度

    2回答

    我有一個使用SQL Server的Web和移動字典應用程序。我試圖實現一個簡單版本的「你的意思」功能。如果用戶輸入的短語不存在於數據庫中,我需要提出建議。 我打算使用levenshtein距離算法。但有一點我無法弄清楚:我是否需要計算用戶輸入和我的db中存在的所有單詞之間的levenshtein距離? 我們假設我的數據庫中有一百萬字。當用戶輸入一個不正確的單詞時,我會計算一百萬次的距離嗎? 很明顯