2013-08-16 55 views
0

我試圖刮上玩具反斗城的頁面的特定字段...刮網站只能使用一次

http://www.toysrus.com/product/index.jsp?productId=13157031

與選擇「價格」。

它的所有工作一次性通過頁面加載,那麼它永遠不會再工作。有些網站是否有防止人們刮取其內容的方法?我有點新鮮,請溫和。我使用Wordpress,WP-Web的刮刀,並作爲代碼在頁面下面:

Price: 

[wpws url="http://www.toysrus.com/product/index.jsp?productId=13157031" 
selector="price" on_error="error_show" user-agent="diaperbot"] 

回答

1

做一些網站有阻止人們刮其內容的方法嗎?

是的,他們這樣做。他們可能在您的查詢中檢測到用戶代理並阻止了您的IP。

爲什麼?閱讀TOS有關下載的內容:http://www.toysrus.com/helpdesk/index.jsp?display=safety&subdisplay=terms

這WP插件是相當原始。如果您想更有效地刮取網站並獲得更好的效果,請使用python,這是一種專門用於抓取的語言。檢查http://www.google.com/search?q=python+scraper+tutorial

2

markratledge是正確的。要考慮的最直接的事情就是改變你的用戶代理,所以你不能識別你自己。以下是常用/最受歡迎代理商列表的有用鏈接:http://techblog.willshouse.com/2012/01/03/most-common-user-agents/。另外,你的知識產權是另一件大事。如果您僅使用1個IP進行拼搶,則視您的音量而定,可能會很快被阻止。您可能需要使用代理。我們有許多從免費到收費的服務。我發現Ntrepid的工具是有用的(http://ntrepidcorp.com/ion/harvest-data.php)。