1
Q
識別搜索爬蟲
A
回答
1
正如亨利所說,你必須檢查每個請求的User-Agent
頭。
您可以使用此蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/
另外,你可以檢查模式是否含有「機器人」,「履帶式」等也請注意,有些機器人可以用通常的用戶用戶屏蔽本身代理字符串。
此檢查必須非常快速,因此您需要爲抓取工具名稱創建緩存。或者你可以使用谷歌分析,我認爲這不算網絡爬蟲。
相關問題
- 1. 識別搜索引擎爬蟲
- 2. 識別敵對網絡爬蟲
- 3. 如何識別網絡爬蟲?
- 4. DotNetNuke的7.1自定義搜索爬蟲
- 5. TYPO3爬蟲索引內容
- 6. 用於檢索谷歌搜索結果的Java Web爬蟲
- 7. 使用基本的PHP函數識別網絡爬蟲/搜索引擎像谷歌,雅虎等機器人
- 8. Python爬蟲 - html.fromstring
- 9. 網絡爬蟲
- 10. Python的爬蟲?
- 11. 爬蟲實例
- 12. 蟒蛇爬蟲代碼搜索網絡上的任何文件
- 13. asp.net mvc網站搜索使用網絡爬蟲
- 14. 向搜索引擎爬蟲(SEO)公開Solr的策略
- 15. 爲什麼搜索引擎爬蟲不能運行JavaScript?
- 16. 建議 - C#/。NET鏈接搜索/網絡爬蟲框架
- 17. AngularJS/AJAX應用程序和搜索引擎爬蟲
- 18. 爬蟲/搜索引擎如何遍歷網絡?
- 19. 如何讓一個PHP爬蟲搜索特定的字符串?
- 20. 搜索爬行「Bot」?
- 21. 開源C++爬蟲?
- 22. C++網絡爬蟲
- 23. Java Web爬蟲庫
- 24. 文件爬蟲OSError
- 25. PHP網絡爬蟲
- 26. Python網絡爬蟲
- 27. java網絡爬蟲
- 28. 爬蟲vs刮板
- 29. php爬蟲檢測
- 30. 重定向爬蟲
是的,可以使用cms來做到這一點,所以我建議查看用戶在請求頁面時提供的數據。他們應該發送他們的瀏覽器信息,並且可以使用它來跟蹤用戶與機器人。 – JFA
檢查傳入請求的'User-Agent'標頭。 – Henry