Python Scrapy - IP net Masking

我試圖抓取example.com，但抓取100頁後，網站被封鎖。Python Scrapy - IP net Masking

我該如何糾正？

AWS是否有助於避免阻塞？

2014-01-29 Anandhakumar R

我在這裏編輯了我的問題，但因爲我無法提出新的問題。請儘早更新。提前致謝。 –

避免得到取締一些網站實施某些措施，以防止機器人抓取他們，不同程度的混合。避開這些措施可能非常困難且棘手，有時可能需要特殊的基礎設施。如有疑問，請考慮聯繫商業支持。

這裏有一些提示，牢記這些類型的網站打交道時：

從知名的人從瀏覽器池中旋轉你的用戶代理（谷歌身邊，讓他們的名單）

禁用cookies（請參閱COOKIES_ENABLED），因爲某些站點可能使用cookie來識別機器人行爲

使用下載延遲（2或更高）。請參閱DOWNLOAD_DELAY設置。如果可能，請使用Google緩存來抓取頁面，而不是直接擊中網站。

使用一組旋轉IP。例如，免費的Tor項目或付費服務，如ProxyMesh

使用高度分佈式的下載程序，它可以避免內部禁止，因此您可以專注於解析乾淨的頁面。這種下載器的一個例子是Crawlera

如果您仍然無法阻止您的機器人被禁止，請考慮聯繫商業支持。

來源

2014-01-29 17:09:07

Python Scrapy - IP net Masking

回答

相關問題