我知道用美麗的湯姆模塊編寫Python爬蟲。現在我想檢測是否有人抓取我的網站。怎麼做。有人可以指向我的代碼或源代碼。基本上我正在尋找在Python中編寫反爬行器。反爬行器 - Python
-3
A
回答
0
這很難,但可以做的事情來過濾爬蟲。
驗證
顯示頁面只有授權的用戶。
強驗證碼
如果您的驗證碼系統足夠強大,能抗爬蟲的一部分。
用戶代理
從履帶請求可能不會設置用戶代理,這樣就可以阻止這些請求沒有用戶代理(或不對用戶代理)。
請求頻率
一些爬蟲請求您的網站更多的速度比人,阻止他們的IP。
JS負載
使用JavaScript加載你的HTML,正常的檢索只能得到基本HTML的JavaScript加載完成之前。
臨時URL
您可以用時間戳(或別的東西),並公開網址您的網址編碼爲用戶訪問,使得一些爬蟲無法找到入口。
或任何其他
....
0
什麼假設,並非所有爬蟲都討厭?大多數人都尊重robots directives。當然,你可以實現各種啓發式的阻止機器人,但你做的是首先要具有
User-agent: *
Disallow:/
在一個robots.txt
在您的網站的根目錄。
然後,如果你真的想讓那些不遵循robots.txt的人努力工作,那麼對所有鏈接使用Javascript:不是100%保證阻止機器人,但它會讓他們的生活變得更加困難。
相關問題
- 1. 爬行使用Python
- 2. Python爬行器:下載HTML頁面
- 3. 從Ruby轉到Python:爬行器
- 4. Python爬行器美麗分解()函數
- 5. Python爬行 - 請求更快
- 6. Python - Scrapy爬行myrecipes.com問題
- 7. 爬行器閱讀pdf
- 8. Python爬蟲 - html.fromstring
- 9. Python的爬蟲?
- 10. Python簡單的網絡爬蟲錯誤(無限循環爬行)
- 11. 爬行
- 12. 網絡爬蟲,反饋?
- 13. Python網絡爬行和存儲到MySQL
- 14. 使用Python登錄後進行爬網
- 15. Python爬蟲。解析並執行ajax
- 16. 爬行網站Python中第一列
- 17. 使用python beautifulsoup進行網頁爬蟲
- 18. Python的遞歸爬行對於網址
- 19. Web聚合器/爬行器產品
- 20. 鏈接檢查器(蜘蛛爬行器)
- 21. Python網絡爬蟲
- 22. 搜索爬行「Bot」?
- 23. Scrapy爬行0頁
- 24. MOSS 2007爬行
- 25. Scrapy CSV爬行
- 26. 爬行itunes.apple.com
- 27. 爬行屬性
- 28. 爬行amazon.com
- 29. 爬行器測試meta標記 - silex phpunit
- 30. php中的圖片爬行器
這根本無法完成。您可以嘗試阻止最簡單的方法(阻止用戶代理,注意快速請求,使用JavaScript注入等),但您無法阻止它。 – sberry