所以我有一個表中包含字符串值(從第三方工具填充關鍵字)的列。我正在開發一個自動化工具來識別可能被標準化爲單個值的類似值的集羣。例如,「消防員」/「消防員」,「同位素」/「同位素」或「犬」/「犬」。用於在SQL中查找相似值的高性能技術?
計算的Levenshtein距離似乎除了它涉及太多的字符串操作/比較並有可能使用了劣質的SQL指標的事實,理想的一種方法。
我已經考慮過使用列的Left(X)字符進行遞增分組,這是一種不太糟糕的方式來最大化索引使用,但是這種方法實際上只能有效地發現具有差異的單詞這個詞的結尾。
任何人都得到了在SQL有效地解決這個問題的一些好的想法?
注:我知道這個問題是非常相似的(Finding how similar two strings are),但這裏的區別是需要在SQL有效地做到這一點。
有關Soundex如何解決單詞複數版本的任何經驗?聽起來好像對「消防員」/「消防員」會有好處,但對於「犬」/「犬」也許不會那麼好。 – JohnFx 2009-07-10 04:47:57