2013-01-10 62 views
3

我無法停止谷歌抓取幾個URL從而導致錯誤發生。機器人的txt禁止外卡

我想停止

  • /項目/ 123984932842 /下載/ PDF
  • /項目/ 123984932842 /下載/ ZIP

但允許

  • /項目/ 123984932842
  • /項目/ 123984932842 /平

我試着項目/ * /下載/ PDF格式,但它似乎並沒有工作。有誰知道會有什麼?

回答

4

你有一個/Disallow:行的開始?

User-agent: googlebot 
Disallow: /project/*/download/pdf 
+0

怎麼會是這樣不是讓不同? 我不明白什麼樣的變化/ * /下載/ PDF 它仍然不允許的。你不能使用嚴肅的通配符來禁止? 至少它可以在允許的東西? –

0

的robots.txt規範沒有定義任何通配符,但谷歌(和其他一些)添加到他們的解析器。 不過,我猜你不需要他們爲你的情況呢(吉姆指出,這是錯誤的)。下面的robots.txt(使用* wildcard)應該做的工作:

User-agent: Googlebot 
Disallow: /project/*/download 
+0

這根本不是真的。 robots.txt規範指出禁止行阻止* url前綴*。所以'禁止:下載/ pdf'不會做任何事情。見http://www.robotstxt.org/robotstxt.html –

+0

@Jim:哇,我認爲,如果省略前導斜槓的「前綴」可以隨時隨地* *在URL路徑開始。那麼,「禁止:/ foo」和「Disallow:foo」是否相等?或者後者會不正確? – unor

+0

後者將是不正確的。 –