2009-01-22 21 views

回答

6

假設蜘蛛是還跟尊重的robots.txt,你可以從下面的訪問您的網站限制它:

User-agent: * 
Disallow:/

這將影響到所有的蜘蛛。通過爲蜘蛛指定正確的用戶代理縮小它的範圍。

如果抓取工具不尊重您的robots.txt,您可能希望通過阻止其在防火牆中的IP來限制其訪問您的網站。

編輯:你可以閱讀更多關於robots.txt here

2

Robots.txt應該是您的第一個通話端口。搜索機器人應該記下這些設置並停止觸擊您拒絕訪問的頁面。這是很容易在你的網站具有以下語法的根創建一個文件來完成:

User-agent: * 
Disallow:/

這句法實際上是說:所有的搜索機器人(通配符*),你不準在/索引什麼。更多的信息在robotstxt.org

如果這不起作用,下一步是禁止IP地址,如果可能的話。

0
User-agent: * 
Disallow:/
1

你也可以建立一個sitemap並註冊站點地圖與有問題的機器人。搜索引擎將使用站點地圖來確定要打的頁面以及頻率。如果你的網站是完全動態的,它可能沒有太大的幫助,但是如果你有很多靜態頁面,這是告訴蜘蛛每天沒有變化的好方法。

0

robots.txt應該是您的第一選擇。但是,如果機器人行爲不當並且您無法控制防火牆,則可以設置.htaccess限制以通過IP禁止它。

1

如果它忽略了robots.txt,第二件最好的事情就是禁用它的useragent字符串。只要禁止IP就不會有太大用處,因爲現在99%的蜘蛛分佈在一堆服務器上。

相關問題