我運行一個小型的網絡服務器,最近它被搜索引擎蜘蛛弄成奶油。冷卻它的正確方法是什麼?我應該定期發送5xx回覆嗎?有沒有我應該使用的robots.txt設置?或者是其他東西?如果搜索引擎蜘蛛正在敲擊我的網站,我該怎麼辦?
1
A
回答
6
假設蜘蛛是還跟尊重的robots.txt,你可以從下面的訪問您的網站限制它:
User-agent: *
Disallow:/
這將影響到所有的蜘蛛。通過爲蜘蛛指定正確的用戶代理縮小它的範圍。
如果抓取工具不尊重您的robots.txt,您可能希望通過阻止其在防火牆中的IP來限制其訪問您的網站。
編輯:你可以閱讀更多關於robots.txt here。
2
Robots.txt應該是您的第一個通話端口。搜索機器人應該記下這些設置並停止觸擊您拒絕訪問的頁面。這是很容易在你的網站具有以下語法的根創建一個文件來完成:
User-agent: *
Disallow:/
這句法實際上是說:所有的搜索機器人(通配符*),你不準在/索引什麼。更多的信息在robotstxt.org
如果這不起作用,下一步是禁止IP地址,如果可能的話。
0
User-agent: *
Disallow:/
1
你也可以建立一個sitemap並註冊站點地圖與有問題的機器人。搜索引擎將使用站點地圖來確定要打的頁面以及頻率。如果你的網站是完全動態的,它可能沒有太大的幫助,但是如果你有很多靜態頁面,這是告訴蜘蛛每天沒有變化的好方法。
0
robots.txt應該是您的第一選擇。但是,如果機器人行爲不當並且您無法控制防火牆,則可以設置.htaccess限制以通過IP禁止它。
1
如果它忽略了robots.txt,第二件最好的事情就是禁用它的useragent字符串。只要禁止IP就不會有太大用處,因爲現在99%的蜘蛛分佈在一堆服務器上。
相關問題
- 1. Ruby網絡蜘蛛和搜索引擎庫
- 2. 搜索引擎優化 - 重定向跳計數網站蜘蛛工具
- 3. 搜索引擎中的蜘蛛如何工作?
- 4. 如何讓搜索引擎顯示我們網站的結果?
- 5. 如何向搜索引擎蜘蛛提供區域內容?
- 6. 在Django中,爲搜索引擎蜘蛛禁用@login_required
- 7. 我該怎麼做? (WordPress的搜索引擎優化)
- 8. 搜索引擎蜘蛛能看到我使用jQuery添加的內容嗎?
- 9. Google正在搜索AWS Elasticbeans網站(mysite.elasticbeanstalk.com),但不是我的網站(mysite.com)。該怎麼辦?
- 10. 從搜索引擎中刪除我的網站的AMP結果?
- 11. 哪些搜索引擎蜘蛛執行javascript?
- 12. 機器人引擎名稱爲搜索蜘蛛
- 13. 爲什麼googlebot使用我的網站的搜索引擎?
- 14. 如果我通過JavaScript在頁面中添加內容,它將被搜索引擎蜘蛛抓取
- 15. 爲什麼搜索引擎不能抓取我的網站?
- 16. 我的網站如何在搜索引擎中出現
- 17. ASP.NET網站搜索引擎
- 18. 網站搜索引擎
- 19. 網站搜索引擎
- 20. 網站搜索引擎
- 21. 最佳網站蜘蛛?
- 22. 我的網站崩潰了Firefox。我該怎麼辦?
- 23. 我該如何解決我沒有這麼搜索引擎友好的網址?
- 24. 搜索引擎索引Flash網站?
- 25. Nutch,蜘蛛,索引網頁它已經在它的索引?
- 26. 如果拋出IOException,我該怎麼辦?
- 27. 如何在我的網站使用cURL從搜索引擎中提取結果
- 28. 我該怎麼辦?
- 29. 如何加快我的網站搜索引擎?
- 30. 如何使用Bing作爲我網站上的搜索引擎?