如何避免使用scrapy時禁止

-1

我越來越經常禁止從網站，我設置download_delay = 10在scrapy中，我試過一個包fake_user_agent然後我試着實現tor和polipo，根據這個site配置沒問題。但是再次運行1/2次後，我被禁止了！有人能幫我一下嗎？如何避免使用scrapy時禁止

注意：scrapy-proxie我也想嘗試這個，但不能激活。從一個地址的所有連接 - - 上點擊

不TOR

來源

2016-10-06 Mohib

您需要提供更多的信息，比如你在爬什麼網站，你爬的時候，等。如果該網站是禁止你做什麼，你是可能做一些不喜歡的事情，或者它發現違反了ToS。沒有更多的信息，這裏沒有人可以告訴你爲什麼你被禁止。 – Rejected

處理這個問題的正確方法是與網站所有者交談並詢問他們。如果您違反了他們的ToS，他們完全有權限制您的訪問權限。我們沒有辦法做到這一點，在我看來，我們無法幫助你規避任何事情。 –

我投票結束這個問題作爲題外話，因爲可能的原因是違反了網站的服務條款，並且OP應該先與網站所有者交談，以確定是否有正確的方式從他們的數據中獲取數據現場。 –

你應該看一看在什麼documentation說。

這裏有一些提示，牢記這些類型的網站打交道時：

從知名的人從瀏覽器池中旋轉你的用戶代理（谷歌各地去它們的列表）

禁用cookie（參考 COOKIES_ENABLED）因爲某些網站可能使用cookies來現場的機器人行爲

使用下載延遲（2或更高）。請參閱DOWNLOAD_DELAY設置。

如果可能，請使用Google緩存來獲取網頁，而不是直接使用網站使用一組旋轉IP。例如，免費的Tor 項目或有償服務，如ProxyMesh

使用高度分佈式下載器在內部規避禁令，這樣你就可以只專注於解析乾淨的頁面。這種下載器的一個例子是Crawlera

來源

2016-10-06 17:55:45

真的謝謝！你可以給我任何有關旋轉IP的教程或示例項目，我真的堅持在這裏！ – Mohib

[This]（http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/）一個看起來不錯。如果它對你有幫助，考慮接受答案。 –

使用延遲不好，經過多次考察

旋轉代理，並查看這篇文章 - web scraping etiquette

來源

2016-10-06 17:48:37

如何避免使用scrapy時禁止

回答

相關問題