2013-02-11 48 views
1

我正在尋找一些不錯的易於實現的算法來查找我的cms中的重複文本。 實際上,我將文本保存到額外的列中,刪除了空格,並將所有字符設置爲小寫,這樣,如果空格和字母大小不同,我可以找到重複項,但這不夠。查找文本重複 - 易於實現

我該如何處理兩個文本是由幾個字符不同的情況,我也希望他們被識別爲重複?

+2

閱讀「編輯距離」。 – thiton 2013-02-11 17:20:10

回答

0

這個問題的簡單解決方案是使用Soundex檢查。您將每個單詞轉換爲與Soundex等效的單詞,消除小單詞,如果記錄相同,則爲匹配。原油,但有效。