2
我有一個小的情況,我必須刪除我的robots.txt文件,因爲我不想和機器人抓取工具來獲取鏈接。如何用.htaccess替換robots.txt
另外我希望他們可以被用戶訪問,我不希望他們被搜索引擎緩存。
另外我不能添加任何用戶身份驗證的各種原因。
因此,我正在考慮使用mod-rewrite禁用搜索引擎抓取工具來抓取它,同時允許所有其他人執行此操作。
我想實現的就是寫一個條件來檢查進來的用戶代理是一個搜索引擎,如果是,則它們重新定向到401
唯一的問題是我不知道的邏輯如何實現它。 :(
有人可以幫我一下吧。
在此先感謝。
問候,
它不會阻止絕對所有抓取工具停止瀏覽您的網站(只有那些尊重robots.txt - 所有大型搜索引擎都這麼做)..但它絕對是一種開始的方式。 – LazyOne
那麼沒有辦法阻止不尊重robots.txt的自定義爬蟲,因爲他們可以發送任何必要的信息,包括「正確的」User-Agent。 – Inoryy
我絕對同意你的看法。這個評論是針對OP而不是針對你的 - 我只是認爲在這裏留下評論比在問題下更合適。 – LazyOne