2013-01-02 23 views
0

這是我的總體想法:在多個銷售網站(例如ebay)中搜索以查找上個月ipad 2的平均價格。在多個銷售網站上的履帶

我只想要一些方向來做這樣的事情。該語言可以是PHP或Python,可以使用開源項目。

問題是,像這樣的系統至少需要一些自定義參數,如日期間隔和對象名稱。

那麼我需要爲每個網站定製一個爬蟲嗎?

如何將價值與產品關聯?

我可能會在這些銷售網站上遇到什麼樣的問題?

那麼,我真的需要一些關於做類似的正確方法的建議。

+0

試着寫的履帶和*然後*問,如果你有一個具體的問題。此外,我會使用Ebay API而不是抓取Ebay。 – Blender

+0

@Blender ebay只是一個例子。我需要一個大概的想法,在這個階段我沒有特別的問題。 – anvd

+0

那麼你的問題是什麼?如果您傾向於使用Python,請參閱[Scrapy](http://scrapy.org/)。 – Blender

回答

1

所以可能我需要爲每個網站定製的履帶式?

不,您需要爲每個網站定製它的某些方面,但底層引擎將保持不變。而你只需要一些信息,所以你必須定製它才能得到。

如何將價值與產品聯繫起來?

您剛剛刮掉了這些數據,由您來管理它的這一方面。但是,如果您正在抓取產品X,那麼您會保留該產品的價格清單,並(例如)平均列表中的內容以獲得平均價格。如何將該列表與產品關聯取決於您的基礎數據庫實施。

我可以在這些銷售網站遇到問題嗎?

是的,當然,如果網站改變了,那麼你的刮板可能會停止工作。這就是爲什麼總是使用API​​更好,因爲您不依賴於不改變頁面的結構來獲取內容。

嗯,我確實想知道正確的方式做同樣的事情 一些建議。

使用API​​優先選擇HTML。使用現有的工具,而不是重新發明輪子。 http://wwwsearch.sourceforge.net/mechanize/

http://scrapy.org/

http://seleniumhq.org/

Amazon API library for Python?