2014-10-28 99 views
0

我打算創建一個加盟網站(價格比較網站)。加盟店網站的產品比較

大家都知道,來自不同網站(Ecomm網站)的DATA(產品及其信息)在這些類型的價格比較網站中起着至關重要的作用。

我已經寫了腳本來從我感興趣的網站中刪除產品的數據並按預期工作。

更詳細地說,我正在按照常用參數進行報廢並將它們存儲在我的數據庫中。 1)產品名稱,2)商品說明,3)價格,4)支付模式等 [FYI:我用JSOUP API來報廢數據]

問題從這裏開始:

我想要將來自不同來源的產品[相同產品]分組,我從這些網站報廢。

說明我的任務: 說XYZ是在5個不同的網站上銷售的產品,其產品標題有一些變化。

我從這5個網站報廢的數據現在將其保存到我的數據庫現在我應該如何有效地將這些產品分組到單個組。這樣我可以在我的網站的單個頁面上顯示5個不同的來源。

我沒有任何線索,我應該如何繼續。

[字符串對比的是,在我腦海中,但不認爲我會在長期運行的第一個念頭。]

任何建議/推薦的歡迎和讚賞。

我需要任何進一步的信息,請不要猶豫,添加評論。

-JS

+0

嗨@ Jagdeep84。你做這項工作有成功嗎?我也陷入了同樣的情況。如果你已經這樣做,請告訴我。 – 2015-10-12 06:39:14

回答

0

在初始階段,你可以使用Solr的用於獲得最好的成績,而產品名稱或而且其描述之間的比較。

如果我們仔細考慮用戶方面,更深入的是,爲什麼一個產品被視爲普通產品。這些是使產品通用的特徵。如品牌,顏色,材質等等....

製作不同目錄的功能集的字典,它應該是相同的,同時將任何產品聲明爲通用產品。 這可能是一個相同的功能集,我們有很多產品可以識別,在這種情況下,您可以從solr獲得幫助進行評分...

此外,您可以檢查谷歌圖片搜索API,最終幫助獲得圖像相似性評分。這將是普通產品的發現爲時尚目錄

希望這將有助於幫助的......

+0

感謝阿南德,爲了在這個話題上回復,我一定會試着弄清楚在這種情況下這會有多大的幫助。 – Jagdeep84 2014-10-29 02:59:14