edit-distance

    1熱度

    1回答

    我有一個問題,我們可以通過將e.d值除以兩個字符串的長度來規範levenshtein編輯距離嗎? 我在問這個,因爲如果我們比較兩個不等長的字符串,那麼兩者的長度之間的差異也會被計算在內。 例如: ed('has a','has a ball')= 4 and ed('has a','has a ball is is round')= 15 如果我們增加字符串的長度,即使它們相似,編輯距離也會增加。

    0熱度

    1回答

    我正在嘗試使用Levenshtein算法對企業上的最近單詞進行一些字符串匹配。 (在蟒蛇但語言不會產生巨大的變化) 示例查詢是 搜索=「BNA」 緯度&經度是由我尋找的結果接近。 有由緯度和經度稱爲BNA釀造有限公司通過搜索BNA我的希望將是一個酒館正確的,首先顯示出來(如BNA == BNA) 我已經嘗試了兩種不同的方式 m = min([editdistance.eval(search, pl

    -1熱度

    1回答

    使用編輯距離我必須找到兩個字符串之間有多少編輯,我已經在下面的代碼中完成了這些編輯,但是im卡住的部分正在打印輸出假設要查看的2d數組像這樣: int editdistance(char *s, int ls, char *t, int lt) { int a, b, c; if (!ls) return lt; if (!lt) return ls;

    1熱度

    1回答

    所以我試圖計算兩個大字符串(大約20-100)之間的距離。 障礙是性能,我需要運行20k距離比較。 (需要數小時) 經過調查,我發現了幾個算法,而且我很難決定選擇哪一個。 (基於性能VS準確度) https://github.com/tdebatty/java-string-similarity - 每個算法的性能列表。 ** ** EDITED 是SIFT4算法是一個良好的證明/可中繼? SIF

    0熱度

    1回答

    隨機序列與最小編輯距離的時間的高NR我需要創建一個程序/腳本用於創建高數量的隨機序列中的(20信基於4個不同的字母長的序列)與之間的最小編輯距離所有序列。 「高」在這裏將是至少100k的序列,但如果可能的話高達100萬。 我開始與剛產生隨機20個字母序列的簡單方法,並且對於每個序列,計算所述序列和已創建並存儲所有其它序列之間的編輯距離。如果新序列超過了我的閾值,則存儲它,否則丟棄。如你所知,這對於

    0熱度

    2回答

    我有一個Python程序來讀取兩個列表(一個錯誤和其他與正確的數據)。我錯誤列表中的每個元素都需要與我正確列表中的每個元素進行比較。比較後,我得到每一個比較對之間的所有編輯距離。現在我可以找到給定錯誤數據的最小編輯距離,並獲取我的正確數據。 我正在嘗試使用levenshtein距離來計算編輯距離,但它將所有編輯距離都返回爲1,哪怕是錯誤的。 這意味着用於計算levenshtein距離的代碼是不正確

    1熱度

    1回答

    我建立一個程序來比較每個促銷碼(可能包含OCR錯誤)在列表中的所有促銷碼在另一份清單(正確的促銷代碼的列表) 預期輸出爲編輯距離以及與正在比較的編輯距離最小的促銷代碼。 我的代碼 import csv from nltk.metrics import distance with open("all_correct_promo.csv","rb") as file1: reader1

    1熱度

    1回答

    如果一個字符串接近表中的字符串,它會用表中的字符串取代嗎? 像一個拼寫檢查函數,它搜索一個表,如果輸入接近於表中的一個,它將修復它,所以表中的一個和字符串是相同的?

    -1熱度

    1回答

    如何提高編輯距離與操作採取字謎現有的單詞。每個臨時步驟必須是單詞列表中的單詞。

    3熱度

    1回答

    我試圖從一組序列中獲得編輯距離的百分比。到目前爲止,這是我: #!/usr/bin/perl -w use strict; use Text::Levenshtein qw(distance); my @sequence = qw(CA--------W----------------------EKDRRTEAF---F------ CA--------W---------------