我一直注意到我的追蹤者,機器人正在訪問我的網站ALOT。我應該更改或編輯我的robots.txt或更改內容嗎?不知道這是否好,因爲他們索引或什麼?我應該擺脫訪問我的網站的機器人嗎?
回答
我應該更改或編輯我的robots.txt或更改內容嗎?
取決於機器人。一些機器人會盡職盡責地忽略robots.txt。 18個月前,我們遇到了類似的問題,因爲我們的客戶正在購買Soooo許多廣告。 Google AD bots將(如文檔所述)忽略通配符(*)排除,但會聽取明確的忽略。
請記住,榮譽robots.txt的機器人將不會抓取您的網站。如果您希望他們訪問您的數據以進行索引,這是不可取的。
更好的解決方案是限制或提供靜態內容給機器人。
不知道這是否好,因爲它們是索引或什麼?
他們可能是索引/刮/偷。一切都一樣。我想你想要的是基於UserAgents限制他們的http請求處理。如何做到這一點取決於您的Web服務器和應用程序容器。
正如其他答案中所建議的那樣,如果bot是惡意的,那麼您需要找到UserAgent模式併發送403個禁止。或者,如果惡意機器人動態更改用戶代理字符串,則您有兩個更多選項:
- 白名單UserAgent - 例如,創建一個只接受某些用戶代理的用戶代理過濾器。這是非常不完美的。
- IP禁止 - http頭將包含源IP。或者,如果你得到DOS(拒絕服務攻擊),那麼你有更大的問題
我真的不認爲更改robots.txt會幫助,因爲只有GOOD機器人遵守它。所有其他人都會忽略它並根據需要解析您的內容。就我個人而言,我使用http://www.codeplex.com/urlrewriter通過發現禁止消息來回復不良機器人。
垃圾郵件機器人不關心robots.txt。你可以用mod_security(這本身就是一個很酷的Apache插件)阻止它們。或者你可以忽略它們。
您可能需要使用.htaccess否決某些機器人與您的日誌擰緊。 在這裏看到:http://spamhuntress.com/2006/02/13/another-hungry-java-bot/
我有很多的Java機器人的爬行我的網站,加入
SetEnvIfNoCase的User-Agent ^的Java/1。 javabot = yes
SetEnvIfNoCase User-Agent^Java1。 javabot = yes
拒絕來自env = javabot
使它們停止。現在他們只能得到403次,就是這樣:)
我曾經爲一個有多次「價格比較」機器人的客戶工作。問題在於我們的後端資源非常稀缺,每筆交易都需要花費金錢。
在試圖抵抗這些一段時間後,但機器人只是不斷改變其可識別的特徵。我們結束了以下策略:
對於服務器上的每個會話,我們確定用戶是否在任何點擊過快。經過給定數量的重複,我們將「isRobot」標誌設置爲true,並通過添加睡眠來簡化該會話內的響應速度。我們沒有以任何方式告訴用戶,因爲他在這種情況下剛剛開始新的會話。
- 1. 當我訪問我的測試網站時,如何擺脫「Index of /」? [WordPress的]
- 2. 我該如何擺脫「[1]」?
- 3. 我應該創建此訪問器嗎?
- 4. Facebook可以訪問我的網站嗎?
- 5. 我可以擺脫WakeLock嗎?
- 6. 已訪問過該網站的人數
- 7. 我應該顯示一個獨立版本的我的Ajax驅動的GWT網站來搜索機器人嗎?
- 8. 如果我們要訪問網站,我們不應該使用微格式嗎?
- 9. 我可以限制網站訪問特定的計算機嗎?
- 10. 機器人擺脫兩個警告
- 11. 我應該阻止人們同時登錄兩次我的網站嗎?
- 12. 我是否應該考慮與我的個人網站兼容?
- 13. 我應該登錄我的網站的404錯誤嗎?
- 14. 谷歌索引機器人訪問我的網站(IIS)時出現錯誤500
- 15. 顯示最終用戶的訪問權限..我應該嗎?我不應該嗎?
- 16. 我該如何擺脫額外的斜線在網址末尾
- 17. 無法擺脫水平滾動條在我的網站
- 18. 我應該在2013年用HTML5編碼我的網站嗎?
- 19. 我應該將我的網站切換到ASP.NET MVC嗎?
- 20. 我應該使用WWW刪除我的網站記錄嗎?
- 21. 我應該將我網站的圖片存儲在heroku上嗎?
- 22. 我該如何擺脫/使用html_entity_decode?
- 23. 我該如何擺脫「%is unavailable:Use truncatingRemainder instead」?
- 24. 我該如何擺脫這個特徵?
- 25. 我該如何擺脫這個goto?
- 26. 我該如何擺脫:TypeError:communityApp.activeTabLayout.pforum是undefined
- 27. 我該如何擺脫刪除線?
- 28. 我該如何擺脫這條新線?
- 29. 我該如何擺脫這種僵局?
- 30. 我該如何擺脫],[和'在ttk
得到'不同意項目1谷歌服從robots.txt很好。 – UnkwnTech 2008-11-29 05:11:14