假設我們使用的是簡潔的URL與mod_rewrite
或類似的東西,並有以下兩種途徑:漂亮的URL和robots.txt的
/page
/page-two
現在,我們要禁止只有第一條路線(/page
)被機器人抓取。
# robots.txt
User-agent: *
Disallow: /page
不允許(http://www.robotstxt.org/orig.html):
...例如,不允許:/幫助不允許既/help.html和/help/index.html,而不允許:/幫助/將不允許/help/index.html,但允許/help.html。
那麼以上robots.txt
的例子也是不允許/page-two
,對嗎?
完成這件事的正確方法是什麼?
可能是以下代碼?
# robots.txt
User-agent: *
Disallow: /page/
'禁止:/ page'確實*不*禁止'/ page-two'。 –
你確定那個(考慮我的問題中robotstxt.org的引用)嗎? :-O – Martin
謝謝約瑟夫! :-) – Martin