2015-10-15 116 views
1

我有一個像選擇性編輯距離

Mega Mall 
Mega Malls 
L & T Gate 6 
L & T Gate 5 
L & T Gate 2 
Megas Mall 
Mega Mwll 

數據現在就是我想要把它清理乾淨。我使用編輯距離1編輯距離方法,並處理Mega Mall案例。簡而言之,它會刪除L & T Gate 5,2也[我保留第一個條目]。有沒有什麼辦法可以解決這個問題,不刪除這些案件和處理錯別字等

回答

1

是的,你可以使用編輯距離的加權形式,沒有真正改變算法或它的時間和空間複雜度。替代將任何替換,插入或刪除計爲1,當涉及的字符(或任一字符,替換)爲數字時,將其計爲較高的數字。

甚至有可能以不同的方式對字符串中的特定位置加權。例如。您可能會認爲緊接1位或更多位的每個字母應被視爲更重要(因爲例如地址123B與123非常不同)。