假設我有一個字符串列表,它們是相似的。我想弄清楚所有這些字符串的共同部分或特徵。是否有一種已知的方法可以找出與給定集合中所有字符串最相似的字符串,並且不屬於該集合?編輯字符串距編輯距離最短的字符串
例如,如果我有以下組:
Hello
Hell
Help
Hepl
'赫爾' 給出的一個2,1,1,1 Levenshtein距離。目前我正在考慮以不同的子字符串爲基礎,並計算距離(我的集合相當小,所以粗暴的強制不會成爲問題),但是這種解決方案並沒有發現字符串,它本質上不是任何給定字符串的子字符串集合,但可能是最優的解決方案(例如解決方案是兩個子串共軛的情況)。
任何與此有關的線索將不勝感激。
我從未有過這樣的代碼,但[哈羅 - 溫克勒距離(https://en.wikipedia.org/wiki/Jaro%E2%80% 93Winkler_distance) –
「Hell」比「Hel」更好,因爲前者給出1,1,1,1的Levenstein距離。 – user31264
嘗試使用具有扁平字母矩陣(?)的clustal算法進行多重比對,並調整空位罰分。 –