Q

有關字符串相似度量（Java）的建議。距離，聽起來像還是組合？

2010-04-21 40 views 2 likes

2

過程的一部分需要應用字符串相似性算法。有關字符串相似度量（Java）的建議。距離，聽起來像還是組合？

該過程的結果將被存儲併產生讓我們說SS_Dataset。

基於此數據集，必須作出進一步的決定。

我的問題是：

我應該申請一個或多個字符串相似性算法來產生SS_Dataset？
任何計算「距離」和「聽起來像」相似度的算法之間的比較？

算法的一個家族是否產生比另一個算法更準確的結果？組合是否可以提供更準確的相似性結果？

你能推薦你曾經使用過的實現嗎？

我的實現將包括以下庫

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

2010-04-21 Andreas

A

回答

0

哪一個是最好完全取決於你想做什麼包。 Soundex和最小編輯距離（又名Levenshtein）被廣泛使用，因爲它們很容易理解。當您嘗試處理輸入中的拼寫錯誤或拼寫錯誤時，它們很好。我很抱歉，我無法超越「你必須嘗試一下這些工作對你的特定目的有多好。」

2010-04-21 23:01:40 redtuna

+0

我知道我必須做實驗。謝謝您的回覆。雖然我想要做的是匹配來自不同資源的項目的記錄（抽象術語）。這些記錄與NAME屬性沒有什麼共同之處。我需要儘量減少出現錯誤匹配的機會，並且我正在考慮針對「距離」和「聽起來像」計算的多種算法應用程序......乾杯 – Andreas 2010-04-22 19:13:35

相關問題