我的數據庫中有幾個名稱標題經常會被輕微更改創建和重新創建。通過手動觀察,人們可以很容易地將它們識別爲重複,並進行小的拼寫更改。對於例如使用百分比匹配標識自由文本關鍵字重複項
Resort Inn, Res Ort inn, Rsort Inn etc等。我正在尋找的是一種解決方案,它可以將搜索關鍵字的百分比匹配爲重複數據。源集可能不夠大,但參考集可能會傳入數百萬個數據。所以潛在的mysql「匹配」不可擴展。此外,參考集是在mysql和sphinx索引。當前的重複邏輯不能完全捕獲所有重複項。例如
Moy Knn Resort Moy-Knn Moy Knn Resort Moeyy-Knn American Food
所有這些都是根據我重複。但是第四個並沒有被捕獲。我知道他們看起來完全一樣,但是通過消除元音和其他東西進行比較後,一些百分比數字會有所幫助首選的解決方案主要是'php-sphinx',因爲大部分解決方案已經準備就緒或awk(如果可能並且適度舒適)。如果沒有,任何開源(python/perl等)邏輯都可以。
你的意思是「我瞭解他們[不]看起來完全相同」 - 錯過了這個詞嗎? – barryhunter
是,「不要」丟失 – user676500