我的序列是從0和1開始構建的。我想以某種方式測量它們與目標字符串的距離。但目標字符串不完整。對於不完整的弦是否有修改的最小編輯距離(Levenshteina距離)?
數據我有,其中,x是目標串,的實施例中,[0]表示的至少一個'0'
的次數:
x =11[0]1111[0]1111111[0]1[0]`, the length of x is fixed and eaquel to length of y.
y1=11110111111000000101010110101010111
y2=01101000011100001101010101101010010
all y's have the same length
很容易地看到,x
可以確實解釋爲字符串集,但是這個集合可能非常大,可能只需要從該集合中抽取樣本,並取平均最小編輯距離,但這又是一個大計算問題。
我試圖找出算法中,但我疊,它的步驟是這樣的: X - 目標字符串 - 模糊一片,
Ÿ - 第二個字符串 - 固定 CX1,CY1 - 數字那些在x和y的 GX1,GY1 - 載體的列表,每個列表的長度是等於那些在給定序列的羣的數目,
GX1 [I]的第i個矢量,
GX1 [ i] =(第i組的第1組,第i組的長度)
如果GX1和GY1的長度相同,則我們知道有多少的人添加或從每個組中刪除,但有一個問題,因爲我不知道,如果簡單的添加和刪除也給出了最小距離
有兩個問題:(1)x_always_中的0是否顯示爲「[0]」,或者是否會出現單個「0」出現? (2)例如,如果x ='1 [0] 11',並且y ='100011',那麼它是完全匹配的,即編輯距離零? – jogojapan 2012-04-21 11:47:58
是的,這將是完全匹配 – Qbik 2012-04-21 12:44:12
你只說明你想測量他們的距離。我認爲這意味着您可能會對幾種編輯距離中的任何一種感到滿意,並且您提到平均最小編輯距離會很有用,但是如果算法僅告訴您最小編輯距離的最小值,您還會很高興,或最小編輯距離? – 2012-04-21 15:44:47