根據this評論在相關的線程,我想知道爲什麼基於Levenshtein距離的方法比Soundex好。基於Levenshtein距離的方法Vs Soundex
13
A
回答
13
Soundex是相當原始的 - 它最初被開發爲手算。它產生了一個可以比較的關鍵。
Soundex與西方國家的名字一起使用,因爲它最初是爲美國人口普查數據開發的。它旨在用於拼音比較。
Levenshtein距離查看兩個值並根據它們的相似性生成一個值。它正在尋找丟失或替換的字母。
基本上Soundex更適合發現「施密特」和「史密斯」可能是同一個姓氏。
Levenshtein距離是察覺到用戶拼寫錯誤「Levnshtein」 ;-)
0
@Keith更好:正如我貼在其他問題
,Daitch-Mokotoff對我們歐洲人更好的(和我我認爲美國)。
我也讀了關於Levenshtein的Wiki。但我不明白爲什麼(在現實生活中)爲用戶比爲Soundex更好的。
8
2
我同意你在Daitch-Mokotoff,Soundex是有偏見的,因爲原來的美國人口普查員想要'美國'的名字。
也許上的差異的例子可以幫助:
探測法把增加值在單詞的開始 - 事實上,它只會考慮第4周拼音的聲音。所以雖然「施密特」和「史密斯」將匹配「史密斯」和「Wmith」不會。
Levenshtein的算法會更好地發現拼寫錯誤 - 一個或兩個缺失或替換的字母會產生高度相關性,而這些缺失字母的語音影響則不那麼重要。
我不認爲要麼更好,我會考慮距離算法和拼音,以幫助用戶更正輸入法。
相關問題
- 1. Levenshtein距離成本
- 2. 反向Levenshtein距離
- 3. Levenshtein距離組合
- 4. 計算Levenshtein距離
- 5. Swift3中的Levenshtein距離
- 6. Haskell程序Levenshtein距離
- 7. OCR:加權Levenshtein距離
- 8. Levenshtein距離與陣列
- 9. 移植C#Levenshtein距離Java
- 10. Levenshtein編輯距離Python
- 11. 同義詞由Levenshtein距離
- 12. Levenshtein自動機和Damerau-Levenshtein距離算法有什麼區別?
- 13. JS - 基於距離
- 14. Python中的Levenshtein距離只給出1作爲編輯距離
- 15. 任意序列的Levenshtein /編輯距離
- 16. 非英語語言的Levenshtein距離
- 17. 作爲全文替代的Levenshtein距離
- 18. 正則表達式中的Levenshtein距離
- 19. Levenshtein與擾亂字符的距離?
- 20. 顯示Levenshtein距離的結果
- 21. Damerau-Levenshtein距離的迭代版本
- 22. Damerau-Levenshtein距離的高效實現
- 23. R中的快速Levenshtein距離?
- 24. 轉換Levenshtein錯誤率的距離
- 25. 計算的Levenshtein編輯距離
- 26. 句級R中的Levenshtein距離
- 27. Levenshtein Python中的距離循環
- 28. 修改Levenshtein位置偏差的距離
- 29. 水母的Damerau-Levenshtein距離計算車?
- 30. 性能問題,編輯大字符串的距離LCP vs Levenshtein vs SIFT
我是第二個Metaphone/Double Metaphone暗示 – 2010-02-22 20:08:53
什麼是雙重metaphone? – Marin 2011-02-16 17:29:30