2010-04-21 40 views
2

過程的一部分需要應用字符串相似性算法。有關字符串相似度量(Java)的建議。距離,聽起來像還是組合?

該過程的結果將被存儲併產生讓我們說SS_Dataset。

基於此數據集,必須作出進一步的決定。

我的問題是:

  • 我應該申請一個或多個字符串相似性算法來產生SS_Dataset?

  • 任何計算「距離」和「聽起來像」相似度的算法之間的比較?

算法的一個家族是否產生比另一個算法更準確的結果?組合是否可以提供更準確的相似性結果?

  • 你能推薦你曾經使用過的實現嗎?

我的實現將包括以下庫

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

回答

0

哪一個是最好完全取決於你想做什麼包。 Soundex和最小編輯距離(又名Levenshtein)被廣泛使用,因爲它們很容易理解。當您嘗試處理輸入中的拼寫錯誤或拼寫錯誤時,它們很好。我很抱歉,我無法超越「你必須嘗試一下這些工作對你的特定目的有多好。」

+0

我知道我必須做實驗。謝謝您的回覆。雖然我想要做的是匹配來自不同資源的項目的記錄(抽象術語)。這些記錄與NAME屬性沒有什麼共同之處。我需要儘量減少出現錯誤匹配的機會,並且我正在考慮針對「距離」和「聽起來像」計算的多種算法應用程序......乾杯 – Andreas 2010-04-22 19:13:35

相關問題