我越來越經常禁止從網站,我設置download_delay = 10在scrapy中,我試過一個包fake_user_agent然後我試着實現tor和polipo,根據這個site配置沒問題。但是再次運行1/2次後,我被禁止了!有人能幫我一下嗎 ?如何避免使用scrapy時禁止
注意:scrapy-proxie我也想嘗試這個,但不能激活。從一個地址的所有連接 - - 上點擊
我越來越經常禁止從網站,我設置download_delay = 10在scrapy中,我試過一個包fake_user_agent然後我試着實現tor和polipo,根據這個site配置沒問題。但是再次運行1/2次後,我被禁止了!有人能幫我一下嗎 ?如何避免使用scrapy時禁止
注意:scrapy-proxie我也想嘗試這個,但不能激活。從一個地址的所有連接 - - 上點擊
你應該看一看在什麼documentation說。
這裏有一些提示,牢記這些類型的 網站打交道時:
從知名的人從瀏覽器 池中旋轉你的用戶代理(谷歌各地去它們的列表)
禁用cookie(參考 COOKIES_ENABLED)因爲某些網站可能使用cookies來現場的機器人行爲
- 使用下載延遲(2或更高)。請參閱DOWNLOAD_DELAY設置。
- 如果 可能,請使用Google緩存來獲取網頁,而不是直接使用 網站使用一組旋轉IP。例如,免費的Tor 項目或有償服務,如ProxyMesh
- 使用高度分佈式 下載器在內部規避禁令,這樣你就可以只專注於 解析乾淨的頁面。這種下載器的一個例子是Crawlera
真的謝謝!你可以給我任何有關旋轉IP的教程或示例項目,我真的堅持在這裏! – Mohib
[This](http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/)一個看起來不錯。如果它對你有幫助,考慮接受答案。 –
旋轉代理,並查看這篇文章 - web scraping etiquette
您需要提供更多的信息,比如你在爬什麼網站,你爬的時候,等。如果該網站是禁止你做什麼,你是可能做一些不喜歡的事情,或者它發現違反了ToS。沒有更多的信息,這裏沒有人可以告訴你爲什麼你被禁止。 – Rejected
處理這個問題的正確方法是與網站所有者交談並詢問他們。如果您違反了他們的ToS,他們完全有權限制您的訪問權限。我們沒有辦法做到這一點,在我看來,我們無法幫助你規避任何事情。 –
我投票結束這個問題作爲題外話,因爲可能的原因是違反了網站的服務條款,並且OP應該先與網站所有者交談,以確定是否有正確的方式從他們的數據中獲取數據現場。 –