2013-10-24 20 views

回答

0

用戶代理:*

不允許:/

用戶代理:The robot you want to allow

允許:/

+0

我的應用程序可以在一個通配符子域我試圖阻止除了一個子域 –

+0

所以,你只需要機器人來訪問您的子網域所有的機器人安裝? – m3h2014

+0

是的,禁止其他一切 –

1

如果我正確理解你的意見,對方的回答,你有通配符子域名,這樣foo.example.com和bar.example.com以及fooby.example.com最終都會到達同一個地方。只有一條物理路徑爲所有這些域提供服務。

如果是這樣的話,那麼你不能用一個單一的robots.txt文件中。 robots.txt文件中的規則都基於該域名後談到東西。

我建議你在包含該目錄中創建一個robots.txt文件:

User-agent: * 
Disallow:/

這將阻止任何爬行所有漫遊。

現在,假設您只允許在對foo.example.com的訪問時進行爬網,那麼我會創建一個重寫規則,以便嘗試訪問foo.example.com/robots.txt而不是從他們的數據獲取其數據foo.example.com/robots_foo.txt。該文件將包含:

User-agent: * 
Disallow: 

它允許訪問所有內容。當然,你可以添加你想要的任何禁止規則。

如果您不能創建重寫規則,那麼你就必須去與Sitemaps。當然,缺點是並非所有的抓取工具都瞭解Sitemaps。有些人仍然希望以舊的方式爬行。

+0

太棒了!謝謝 –

相關問題