對於所有可用的HTTP數據,
您認爲Google的搜索引擎機器人有什麼「標誌」?Google網頁抓取機器人會遇到什麼HTTP簽名?
2
A
回答
3
How to verify googlebot - 官方的方法。
1
據我所知,Google的抓取工具已將用戶代理設置爲「Googlebot」。
其他搜索引擎提供商通常在用戶代理中粘貼一個可識別的名稱;有許多知名代理商的名單,例如http://www.jafsoft.com/searchengines/webbots.html。
+0
這是我一直在尋找的鏈接,謝謝! – 2009-05-29 18:26:41
1
的User-Agent頭應該足以檢測谷歌機器人
退房user-agents.org網站獲得知名本身殭屍
的名單中,你想要確保這是從一個真實的Googlebot谷歌,那麼你就可以檢查出的IP /主機這始終是
C [NN] .googlebot.com
其中[nn]是一個數字。
0
那麼,我不太確定如何維護它是做IP地址的DNS反向查找。我只會這樣做,如果你擔心欺騙谷歌的用戶代理字符串,這是不太可能的。正如文章指出的那樣,它也可以被欺騙。
你最好只匹配其已知的用戶代理:
Regex.IsMatch(ua, @"googlebot|mediapartners-google|adsbot-google", RegexOptions.IgnoreCase);
相關問題
- 1. 如何防止Google機器人抓取特定頁面
- 2. Windows手機網頁抓取
- 3. 爲什麼Google抓取我的robots.txt阻止的網頁?
- 4. 如何獲取由Google抓取的私人網頁
- 5. 爲什麼google bot在抓取我的網站時收到NullReferenceException?
- 6. 爲什麼我有時會遇到錯誤的主機名?
- 7. Google會抓取此網址嗎?
- 8. Google如何抓取動態網頁?
- 9. 爲什麼我會遇到SQLSyntaxErrorException - 遇到「」?
- 10. 個人網頁抓取描述
- 11. scrapy:防止抓取機器人在facebook/facebook網站中抓取鏈接
- 12. 有什麼宏記錄器用於網頁抓取自動化?
- 13. 嵌套標籤網頁抓取python
- 14. 使用Python網頁抓取particualr標籤
- 15. 如何讓Google抓取需要會話數據的網頁?
- 16. 如何設計抓取機器人?
- 17. JSON解析抓取在機器人
- 18. PHP獲取網站的Google排名沒有抓取Google
- 19. 網頁抓取從網頁上提取產品名稱
- 20. 網站抓取,機器人身份識別
- 21. Beautifulsoup網頁抓取
- 22. BeautifulSoup網頁抓取
- 23. PHP網頁抓取
- 24. Spyder - 網頁抓取
- 25. 網頁抓取/屏幕抓取
- 26. 網頁抓取/抓取的資源
- 27. 爲什麼我的ASP網站內容沒有被Google抓取?
- 28. 網頁抓取/抓取基於GWT的網頁
- 29. 屏幕抓取/網頁抓取網址在搜索結果後不會改變
- 30. Python - 使用Comet和HTTP流式網頁抓取頁面
偉大的鏈接!有誰知道任何主要的谷歌IP路由? – divinci 2009-05-29 18:28:35