是否有可能編寫代碼來檢測網站是否在搜索內容?Website Spidering Auto Detection
1
A
回答
3
良好的蜘蛛
- 讀取的robots.txt
- 有一個正確的用戶代理
- 將查詢的速度比平均用戶
但一個明確的檢測,如果它是一個瀏覽器或蜘蛛是不可能的,我想。
1
您嘗試使用用戶代理字符串來識別機器人。
不同的漫遊器似乎有不同的用戶代理字符串:
http://www.useragentstring.com/pages/useragentstring.php
然而,用戶代理字符串可以容易地僞造。
1
您可以使用常用機器人使用的用戶代理字符串列表。您可以使用某種形式的費率檢測,並確定非常高的請求率可能是一個蜘蛛(或有人榨取您的整個網站)。
也可能有常用機器人使用的IP地址列表,但防呆檢測系統最可能不可能。
您可以在您的網頁上創建一個真實訪問者永遠不會點擊的鏈接,並標記任何確實遵循該鏈接爲蜘蛛的人。無論如何,你會得到一些人點擊鏈接,但好奇心無法避免。
1
如果蜘蛛很好,可以通過它的用戶代理使用現有用戶代理列表(如this)來檢測它。但一個漂亮的網頁通常也會遵循robots.txt約定
忽略robots.txt文件並欺騙其用戶代理的機器人很可能也使用其他方法隱藏它們是蜘蛛。
相關問題
- 1. Atom auto tslint detection
- 2. Spidering時存儲URL
- 3. jquery form change detection
- 4. Aforge Blob Detection
- 5. Opencv Hole detection
- 6. Droid Incredible Headphones Detection
- 7. Apple watch standup detection
- 8. Beyond Face Detection-OpenCV
- 9. Android - Movment Detection
- 10. Spring @Autowired detection
- 11. Collision detection&animateWithDuration
- 12. Colision detection p5.js
- 13. iPad Zoom Scale Detection
- 14. Collsion Detection Sprite-Kit Bitmasking
- 15. Codename one wi-fi detection
- 16. Mobile Specific Views/Device Detection
- 17. aspnet_compiler WebSite項目
- 18. Admob for website
- 19. VS2005 WebSite Project problem
- 20. Word VBA Website Scrapping
- 21. Azure WebSite Always On
- 22. Angular website page scroll
- 23. cms for php website
- 24. Intent filter detection in several Activities
- 25. github pull request branch rebase detection
- 26. css resizing zoom complet website
- 27. Schema.org的WebSite vs WebPage
- 28. GIT,GITOSIS,WEBSITE - 路徑
- 29. RSS/Atom Feed for website
- 30. Website is slowed by Doctrine2