假設我有一個表objects
。它有字段id
,name
,misc
。在MySQL中查找相似/重複的字段值(Sphinx相關)
如何找到具有相似或重複的name
值的行?我可以看到MySQL可以用於搜索重複值,但不能用於類似的值,例如。 PHP Hypertext Preprocessor
和PHP Hypertext Postprocessor
(源值的〜90%)。
它可以用獅身人面像執行嗎?如何?
假設我有一個表objects
。它有字段id
,name
,misc
。在MySQL中查找相似/重複的字段值(Sphinx相關)
如何找到具有相似或重複的name
值的行?我可以看到MySQL可以用於搜索重複值,但不能用於類似的值,例如。 PHP Hypertext Preprocessor
和PHP Hypertext Postprocessor
(源值的〜90%)。
它可以用獅身人面像執行嗎?如何?
我不知道獅身人面像的細節,但你在說什麼聽起來像是計算Levenshtein Distances。快速搜索「sphinx php levenshtein」我找到了this線程,它描述了一種可能適合你的方法。希望這能讓你繼續下去。
獅身人面像的'建議'例子可能是有用的起點。
http://code.google.com/p/sphinxsearch/source/browse/trunk/#trunk%2Fmisc%2Fsuggest
Levenshtein距離僅僅是一個計算兩個給出的字符串我知道之間的區別方法。我需要的是具有相似字段值的行的實際行集合。這可以通過愚蠢的算法來執行,但我想知道是否存在一些智能解決方案。 好的,謝謝你注意到這一點。 – 2012-02-27 15:53:52
沒問題,對不起,這不是你要找的。祝你好運。 – 2012-02-27 15:59:47