2
過程的一部分需要應用字符串相似性算法。有關字符串相似度量(Java)的建議。距離,聽起來像還是組合?
該過程的結果將被存儲併產生讓我們說SS_Dataset。
基於此數據集,必須作出進一步的決定。
我的問題是:
我應該申請一個或多個字符串相似性算法來產生SS_Dataset?
任何計算「距離」和「聽起來像」相似度的算法之間的比較?
算法的一個家族是否產生比另一個算法更準確的結果?組合是否可以提供更準確的相似性結果?
- 你能推薦你曾經使用過的實現嗎?
我的實現將包括以下庫
http://www.dcs.shef.ac.uk/~sam/simmetrics.html
我知道我必須做實驗。謝謝您的回覆。雖然我想要做的是匹配來自不同資源的項目的記錄(抽象術語)。這些記錄與NAME屬性沒有什麼共同之處。我需要儘量減少出現錯誤匹配的機會,並且我正在考慮針對「距離」和「聽起來像」計算的多種算法應用程序......乾杯 – Andreas 2010-04-22 19:13:35