2011-09-30 212 views

回答

14

要知道,有沒有真正的官方標準,任何網絡爬蟲可以愉快地忽略你的robots.txt

a Google groups post,以下的作品至少有Googlebot的;

User-agent: Googlebot 
Disallow: /directory/ 
Allow: /directory/subdirectory/ 
+2

我想動態地允許子目錄,但不是第一級,將允許語句改爲「允許:/目錄/ * /'的作品。 – Duncanmoo

+2

根據robots.txt維基百科條目,'允許'指令應放在'不允許'之前,以達到最大兼容性(儘管Google或Bing都不介意) – pelms

2

如果這些都是真正的目錄,那麼接受的答案可能是您最好的選擇。但是,如果您正在編寫應用程序並且目錄是動態生成的路徑(例如上下文,路由等),那麼您可能想要使用元標記而不是在robots.txt中定義它。這爲您提供了無需擔心不同瀏覽器如何解釋/優先訪問子目錄路徑的優勢。

你可以嘗試這樣的事情代碼:

if is_parent_directory_path 
    <meta name="robots" content="noindex, nofollow"> 
end 
1

我會建議使用谷歌的機器人測試儀。利用谷歌網站管理員工具 - https://support.google.com/webmasters/answer/6062598?hl=en

您可以在工具中編輯和測試URL,並且您還可以獲得大量其他工具。

+0

好點!我不確定這是否在2011年發佈後可用,但它是WMT非常有用的補充。 – QFDev

+0

QFDEV我今天不得不使用機器人測試儀,因爲我努力讓Google公司的網站在Google的搜索結果中排名更高。我在「HTML改進」中看到的唯一的東西是重複的標題和元標記。這是因爲他們正在讀取兩次相同的頁面(查詢字符串)。同樣出於某種原因,機器人正在爬取不存在的目錄。我找到了你的帖子,它幫助並注意到Google Web Master工具中的測試人員,並發現它會驗證這些更改。認爲它可以通過張貼到你的線程來幫助其他開發者。 – Moojjoo

相關問題