1
A
回答
4
看到scrapy faq page說明:
避免得到取締 一些網站實施某些措施,以防止機器人抓取他們,不同程度的混合。避開這些措施可能非常困難且棘手,有時可能需要特殊的基礎設施。如有疑問,請考慮聯繫商業支持。
這裏有一些提示,牢記這些類型的網站打交道時:
- 從知名的人從瀏覽器池中旋轉你的用戶代理(谷歌身邊,讓他們的名單)
- 禁用cookies(請參閱COOKIES_ENABLED),因爲某些站點可能使用cookie來識別機器人行爲
- 使用下載延遲(2或更高)。請參閱DOWNLOAD_DELAY設置。 如果可能,請使用Google緩存來抓取頁面,而不是直接擊中網站。
- 使用一組旋轉IP。例如,免費的Tor項目或付費服務,如ProxyMesh
- 使用高度分佈式的下載程序,它可以避免內部禁止,因此您可以專注於解析乾淨的頁面。這種下載器的一個例子是Crawlera
如果您仍然無法阻止您的機器人被禁止,請考慮聯繫商業支持。
相關問題
- 1. .net框架與scrapy python
- 2. Scrapy框架的代理IP
- 3. Android Masking
- 4. Scrapy Python中的Scrapy
- 5. 加速Numpy Masking
- 6. [PHP/HTML]:URL Masking
- 7. Masking QLineEdit文本
- 8. express.js res.redirect with masking
- 9. Javascript:Overdrive URL Masking
- 10. Angular 2 Field Masking
- 11. Masking/Clipping div
- 12. openCV inRange masking
- 13. Masking delimited columns shellscript
- 14. Autoresize Masking問題
- 15. Masking in Matlab
- 16. Numpy row wise masking
- 17. 在asp.net中對文本框進行IP Masking控制?
- 18. 檢查用於請求的IP地址Python/Scrapy + ProxyMesh
- 19. tcp/ip沒有ip在.net
- 20. iPhone OpenGL ES Texture2D Masking
- 21. UITabBarController-like image masking effect
- 22. javascript中的Masking urls
- 23. Iphone - Masking JPG圖像
- 24. Python Scrapy allowed_damins Attriute
- 25. Python Scrapy Xpath?
- 26. Scrapy和Python。 NameError
- 27. Python Scrapy XPathSelector
- 28. scrapy - python問題
- 29. Python/Scrapy - UnicodeDecodeError
- 30. 在python scrapy
我在這裏編輯了我的問題,但因爲我無法提出新的問題。請儘早更新。提前致謝。 –