2011-06-28 39 views
2

我有一個小的情況,我必須刪除我的robots.txt文件,因爲我不想和機器人抓取工具來獲取鏈接。如何用.htaccess替換robots.txt

另外我希望他們可以被用戶訪問,我不希望他們被搜索引擎緩存。

另外我不能添加任何用戶身份驗證的各種原因。

因此,我正在考慮使用mod-rewrite禁用搜索引擎抓取工具來抓取它,同時允許所有其他人執行此操作。

我想實現的就是寫一個條件來檢查進來的用戶代理是一個搜索引擎,如果是,則它們重新定向到401

唯一的問題是我不知道的邏輯如何實現它。 :(

有人可以幫我一下吧。

在此先感謝。

問候,

回答

2

我可以理解你錯了,但我覺得

User-agent: * 
Disallow:/

在機器人.txt會做你想做的 - 不讓任何爬蟲進入,同時保持網站對普通用戶開放。

或者您是否需要從Web服務器專門刪除robots.txt(出於何種原因?)?

+0

它不會阻止絕對所有抓取工具停止瀏覽您的網站(只有那些尊重robots.txt - 所有大型搜索引擎都這麼做)..但它絕對是一種開始的方式。 – LazyOne

+1

那麼沒有辦法阻止不尊重robots.txt的自定義爬蟲,因爲他們可以發送任何必要的信息,包括「正確的」User-Agent。 – Inoryy

+0

我絕對同意你的看法。這個評論是針對OP而不是針對你的 - 我只是認爲在這裏留下評論比在問題下更合適。 – LazyOne