2014-01-29 31 views
1

我試圖抓取example.com,但抓取100頁後,網站被封鎖。Python Scrapy - IP net Masking

我該如何糾正?

AWS是否有助於避免阻塞?

+0

我在這裏編輯了我的問題,但因爲我無法提出新的問題。請儘早更新。提前致謝。 –

回答

4

看到scrapy faq page說明:

避免得到取締 一些網站實施某些措施,以防止機器人抓取他們,不同程度的混合。避開這些措施可能非常困難且棘手,有時可能需要特殊的基礎設施。如有疑問,請考慮聯繫商業支持。

這裏有一些提示,牢記這些類型的網站打交道時:

  • 從知名的人從瀏覽器池中旋轉你的用戶代理(谷歌身邊,讓他們的名單)
  • 禁用cookies(請參閱COOKIES_ENABLED),因爲某些站點可能使用cookie來識別機器人行爲
  • 使用下載延遲(2或更高)。請參閱DOWNLOAD_DELAY設置。 如果可能,請使用Google緩存來抓取頁面,而不是直接擊中網站。
  • 使用一組旋轉IP。例如,免費的Tor項目或付費服務,如ProxyMesh
  • 使用高度分佈式的下載程序,它可以避免內部禁止,因此您可以專注於解析乾淨的頁面。這種下載器的一個例子是Crawlera

如果您仍然無法阻止您的機器人被禁止,請考慮聯繫商業支持。