3
A
回答
2
看看用戶代理。它應該是googlebot。更可靠的方法是對IP地址進行反向查找。它會告訴你它是否是谷歌機器人。我會使用這兩種方法。但注意:你會減慢你的網站,因爲你會爲每個訪問者進行反向查詢。
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=80553
6
這似乎是有幾個原因,而不是其中最重要的是,谷歌將緩存網頁的副本,這樣,即使我不反對你的網站進行身份驗證,我將能夠看到的內容一個非常糟糕的主意網頁和其他文件從網站受保護部分的後面提供。
只要檢測到網絡爬蟲,我就不會相信任何用戶代理。您或許可以編譯抓取工具源自的IP地址列表,但只要Google添加了另一個IP地址,您就會拒絕該抓取工具訪問。
對每個請求進行反向DNS查找以確保訪問者的域名爲googlebot.com
,正如Verifying Googlebot所建議的那樣,如果您的網站很繁忙,可能會造成很大的性能下降。
1
你並不需要做的每個請求反向查找。緩存反向查找的結果。我剛剛瀏覽了我的日誌,並發現來自同一個IP的很長一段時間的Googlebot。這種行爲不能保證,但無論如何緩存應該是一個合理的策略。
0
您可以輕鬆地指引谷歌索引,但使用無存檔元標記不緩存你的網站頁面。這樣您就可以在不暴露您的內容的情況下獲得可搜索的好處。
看到谷歌網站管理員本頁面中央以獲取更多信息
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412
相關問題
- 1. 自動網絡爬蟲
- 2. 單頁網頁爬蟲PHP
- 3. .htaccess和谷歌爬蟲錯誤
- 4. 谷歌爬蟲時間限制
- 5. 谷歌爬蟲,cron和笨會議
- 6. 谷歌爬蟲和新聞股票
- 7. 構建自動網絡爬蟲
- 8. 網絡爬蟲
- 9. 掩碼java jsoup網絡爬蟲作爲谷歌機器人下載網頁
- 10. 爬蟲登錄到Gmail郵箱賬戶
- 11. 谷歌網站管理員API - 將爬蟲標記爲固定
- 12. Appengine Apps VS谷歌機器人網絡爬蟲
- 13. 谷歌爬蟲如何通過互聯網找到每一個頁面
- 14. C++網絡爬蟲
- 15. PHP網絡爬蟲
- 16. Python網絡爬蟲
- 17. java網絡爬蟲
- 18. 網絡爬蟲類
- 19. js滑動網站 - 谷歌爬行
- 20. 充分利用谷歌的爬蟲抓取自己的網站正確
- 21. 谷歌登錄自動失敗
- 22. 谷歌分析API自動登錄
- 23. 谷歌登錄 - 防止自動負載
- 24. 自動登錄谷歌文檔
- 25. 打開谷歌日曆自動登錄
- 26. 如何使用網絡爬蟲/刮板登錄?
- 27. 以編程方式登錄Python網絡爬蟲
- 28. scrapy避免爬蟲登出
- 29. Python BeautifulSoup提取標題網頁爬蟲
- 30. 用飛鏢寫的網頁爬蟲
這兩個答案再好,但是你排在第一位。 – 2009-09-16 22:47:04
感謝,有一定有很多聰明的窺視的計算器上! – 2009-09-17 02:45:57