2010-02-09 40 views
1

我應該再做的robots.txt ignrore一切文件夾,但爬在根中的所有文件

用戶代理:*

不允許:/

是這麼簡單? 還是不會抓取根中的文件?

基本上這就是我終究 - 爬行所有文件/根頁面,但不排除任何文件夾的所有 還是我將不得不顯式地指定每個文件夾..即

不允許:/管理

不允許:/這

..等

感謝

NAT

回答

2

您的示例將阻止root中的所有文件。

沒有一個"standard"方式輕鬆地做你想要什麼,沒有明確指定每個文件夾。

但是有些爬蟲可以讓你做模式匹配do support extensions。你可以禁止所有不支持模式匹配的機器人,但允許那些做。

比如

# disallow all robots 
User-agent: * 
Disallow:/

# let google read html and files 
User-agent: Googlebot 
Allow: /*.html 
Allow: /*.pdf 
Disallow:/
+0

感謝本,生病給一個去 – nat 2010-02-09 12:29:04

+0

沒有爲你工作? – BenM 2010-02-15 15:34:11

+0

實際上最終爲每個文件夾明確地做了它.. 謝謝雖然 - 不是因爲它沒有工作但是 – nat 2010-03-01 16:35:37

相關問題