1
我應該再做的robots.txt ignrore一切文件夾,但爬在根中的所有文件
用戶代理:*
不允許:/
是這麼簡單? 還是不會抓取根中的文件?
基本上這就是我終究 - 爬行所有文件/根頁面,但不排除任何文件夾的所有 還是我將不得不顯式地指定每個文件夾..即
不允許:/管理
不允許:/這
..等
感謝
NAT
我應該再做的robots.txt ignrore一切文件夾,但爬在根中的所有文件
用戶代理:*
不允許:/
是這麼簡單? 還是不會抓取根中的文件?
基本上這就是我終究 - 爬行所有文件/根頁面,但不排除任何文件夾的所有 還是我將不得不顯式地指定每個文件夾..即
不允許:/管理
不允許:/這
..等
感謝
NAT
您的示例將阻止root中的所有文件。
沒有一個"standard"方式輕鬆地做你想要什麼,沒有明確指定每個文件夾。
但是有些爬蟲可以讓你做模式匹配do support extensions。你可以禁止所有不支持模式匹配的機器人,但允許那些做。
比如
# disallow all robots
User-agent: *
Disallow:/
# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow:/
感謝本,生病給一個去 – nat 2010-02-09 12:29:04
沒有爲你工作? – BenM 2010-02-15 15:34:11
實際上最終爲每個文件夾明確地做了它.. 謝謝雖然 - 不是因爲它沒有工作但是 – nat 2010-03-01 16:35:37