2012-07-16 51 views
3

我需要獲取模式匹配規則才能獲得此結果。robots.txt模式匹配不起作用

allow /dir/path_name.htm/something 
disallow /dir/path_name/something 
and disallow /dir/path_name.htm 

其實這兩個不允許都是沿着積累錯別字。這些頁面不存在。如何阻止Google再次抓取它們?

我在這裏測試:http://www.frobee.com/robots-txt-check/與以下,但似乎沒有任何工作。

Allow: /dir/*.htm/?* 
Disallow: /dir/* 

出了什麼問題?謝謝。

回答

1

根據規範:

http://www.robotstxt.org/norobots-rfc.txt

通配符(*)是不允許的。路徑只是完全匹配。我的猜測是你正在使用某種形式的重寫,並且你不想讓多個具有相同內容的ulrs顯示出來。在這種情況下,這可能是一個更好的解決方案:

http://googlewebmastercentral.blogspot.de/2009/02/specify-your-canonical.html

+0

其實並不真正需要的通配符有兩種,因爲'禁止:/路徑/到/ DIR /'意味着忽略與內容的整個文件夾,只需NIT這個特定的URI ... – poncha 2012-07-16 14:01:23

+0

如果你閱讀這個問題,他想禁止一個子目錄,但允許一些在那裏的URL。 – Evert 2012-07-16 14:30:07

+0

那麼,如果他使用'Disallow:/ dir/path_name.htm',我認爲它不會阻止文件夾(因爲它沒有尾部斜線),但是我再也沒有嘗試過這樣,所以我可能會錯 – poncha 2012-07-16 14:33:43