2011-07-04 69 views

回答

7

Soundex是一個非常古老而簡單的英文單詞哈希。它旨在匹配拼寫錯誤的單詞;例如「他們」,「他們」和「有」具有相同的Soundex代碼。

Soundex的問題包括它嚴重偏向於英語,並丟棄太多的數據,因此有很多誤報。一個更好的英文單詞算法是Metaphone

如果您正在尋找與西班牙拼寫錯誤匹配的內容,則可以使用可以接受聲音表格(例如「asta」和「hasta」)的Double-Metaphone算法。您必須創建您自己的表格,並且我聽說雙倍音頻比單個音頻慢了幾個數量級。

另一種方法是更改​​Metaphone算法以使用西班牙音素而不是英語。有人已經done this in PHP

+0

如果你有什麼建議西班牙語,那就太好了。 – matsko

+0

同意:Metaphone遠遠優於soundex – Bohemian

+0

Soundex設計用於20世紀初在索引中流行的英國姓氏; Metaphone是爲英文單詞設計的。 Soundex專利在線提供。 http://patimg2.uspto.gov/.piw?docid=01261167&SectionNum=3&IDKey=FFEDD47BEC0B&HomeUrl=http://pimg-piw.uspto.gov/ –