我有Rails應用程序,記錄每個請求的IP地址到特定的URL,但在我的IP數據庫中,我發現了facebook blok IP,例如66.220.15。*和Google IP(我建議它來自bot) 。是否有任何公式可以通過機器人或搜索引擎蜘蛛來確定來自請求的IP?謝謝Ruby on Rails,如何確定請求是由機器人還是搜索引擎蜘蛛做出的?
回答
機器人需要(通過常識/禮儀比任何類型的法律)沿用戶代理髮送請求。您可以使用request.env["HTTP_USER_AGENT"]
來檢查這一點,並按照您的要求過濾。
由於表現良好機器人至少典型地包括在UA字符串的引用URI他們發送,類似:
request.env["HTTP_USER_AGENT"].match(/\(.*https?:\/\/.*\)/)
是一種簡單的方法,以查看是否該請求是從一個機器人對人類用戶的代理。這似乎比試圖與全面的列表匹配更強大。
+1然而,對於這個聰明的解決方案,請記住,Twitter不遵循此規則,請改用request.env [「HTTP_USER_AGENT」]。match(/Twitterbot\/1.0/)'。 – 2014-05-21 09:59:07
雖然這可能是一個聰明的解決方案,以捕捉大多數搜索引擎機器人,它是不可維護的,很可能會錯過許多機器人 – 2017-03-06 10:30:31
雖然這個鏈接可能回答這個問題,最好在這裏包括答案的基本部分,並提供鏈接供參考。如果鏈接頁面更改,則僅鏈接答案可能會失效。 - [來自評論](/ review/low-quality-posts/11097150) – 2016-02-01 04:26:31
感謝@ pardeep-dhingra,我只是改變它 – dimasjt 2016-02-01 08:03:32
這個解決方案適合我,謝謝! – 2017-06-24 14:44:14
- 1. 機器人引擎名稱爲搜索蜘蛛
- 2. 做搜索引擎機器人 - 爬蟲 - 蜘蛛 - 等有他們的JavaScript?
- 3. 蜘蛛網圖Ruby on Rails
- 4. Ruby網絡蜘蛛和搜索引擎庫
- 5. 如何知道傳入的請求是否來自搜索引擎機器人?
- 6. 搜索引擎中的蜘蛛如何工作?
- 7. 如何向搜索引擎蜘蛛提供區域內容?
- 8. 蜘蛛和索引器的好語言
- 9. Ruby on Rails索引路由
- 10. 哪些搜索引擎蜘蛛執行javascript?
- 11. 在Django中,爲搜索引擎蜘蛛禁用@login_required
- 12. 搜索引擎優化修復重定向在Ruby On Rails
- 13. 檢查請求引用者是否是搜索引擎
- 14. Ruby on Rails和Rails引擎
- 15. 指示搜索引擎機器人等
- 16. 塊蜘蛛機器人除了一個
- 17. 用netstat:如何知道它的人或機器人/蜘蛛/ DDOS
- 18. 搜索引擎機器人是否讀取圖像?
- 19. 機器人/蜘蛛是否克隆公共git存儲庫?
- 20. 告訴通過PHP重定向與if語句和搜索引擎蜘蛛?
- 21. 搜索引擎優化 - 重定向跳計數網站蜘蛛工具
- 22. Ruby on rails post請求路由
- 23. 如何確定ROS機器人是前進還是後退?
- 24. Gzip/mod_deflate如何影響爬蟲/蜘蛛/機器人(最終也是我的seo)?
- 25. 如何在一定數量的請求後停止scrapy蜘蛛?
- 26. 傳遞請求到不同的蜘蛛
- 27. modernizr和/或yepnope可以對機器人和蜘蛛做出反應嗎?
- 28. 篩選出搜索引擎機器人流量
- 29. 如何檢測頂級合法搜索引擎機器人?
- 30. 搜索引擎機器人抓取論壇如何?
由於瑞恩,是我使機器人用戶代理等的數組:AM_I_ROBOT = [ 「的googlebot」, 「twitterbot」, 「facebookexternalhit」,「http://www.google .com/bot.html「, 」http://www.facebook.com/externalhit_uatext.php「, 」tweetmemebot「,」sitebot「,」msnbot「,」robot「,」bot「] – 2011-05-05 06:52:27
這裏是一個列表的用戶代理: http://www.user-agents.org/使用XML提要: http://www.user-agents.org/allagents.xml – 2011-08-02 23:26:27
此要點提取所有搜索引擎機器人的名稱和SP來自user-agents.org的ammers並將它們拋入一個數組中:https://gist.github.com/1121578 這是一個很長的列表。 – 2011-08-03 00:13:46