2013-06-21 88 views
0

我向我的網站展示大量產品。 我必須將來自不同網站的類似產品分組, 我已經抓取到我的數據庫。 因此,當搜索產品時,它也會顯示來自其他網站的同一產品。分組產品相同但名稱/屬性略有不同

我嘗試以下方法

  1. 分組通過產品名稱

    結果 - 失敗,因爲索尼的Xperia Z,索尼的Xperia Z(黑色)是相同的產品,但不同的標題,所以不能在同組,所以錯誤率很高。

  2. 分組由屬性:

    具有類似屬性和值的產品被放置在一組。 但它非常慢,錯誤率也很高。 由於不同公司的不同產品可能具有相同的屬性。

這是最好的方法。 請幫我一把。

在此先感謝。謝謝糟糕的英語。

+0

你說你認爲XperiaZ和XperiaZ(黑色)是同樣的產品嗎?它不應該是一個屬性? – Fabinout

+0

@Fabinout:沒有,只是按標題分組。如果按照標題名稱分組,則它們將屬於不同類別。 – vickydon

回答

0

我試着使用標題分組解決方案,但使用RegEx進行了修改。或者只是使用類似的方法:

title1.contains(title2)

title1.startsWith(title2)

不可能有100%的無差錯的解決方案,所以我想補充一個像這樣的鏈接: 「?不是你的產品KLICK這裏」 要從該組中暫時刪除產品並將其標記爲「不確定」,以便您可以手動進行檢查。

+0

用RegEx修改後,你能舉個例子嗎? – vickydon

0

您可以使用第一個字母和一個字典,然後使用mysql全文搜索和按相關性排序。這個問題不是很清楚。還有levensthein距離和soundex()函數。

相關問題