如果我只想允許爬蟲訪問index.php,這個工作嗎?如何使用robots.txt僅允許抓取工具訪問index.php?
User-agent: *
Disallow:/
Allow: /index.php
如果我只想允許爬蟲訪問index.php,這個工作嗎?如何使用robots.txt僅允許抓取工具訪問index.php?
User-agent: *
Disallow:/
Allow: /index.php
您可以使用Google Robots tool進行結賬。我永遠不會在機器人文件中放置任何祕密目錄,因爲我猜想像下面這樣的一行對於某些蜘蛛來說就像是親愛的。
Disallow: /secret
嘗試更換的順序不允許/允許:
User-agent: *
Allow: /index.php
Disallow:/
參見維基百科這樣的信息:
「然而,在秩序,是所有 機器人兼容,如果你想要允許在不允許的 目錄中存在單個 文件,則需要先放置允許 指令,然後再放置 不允許,例如:」
http://en.wikipedia.org/wiki/Robots.txt
不過我不希望它太一致
是,它將攜手。以下是Google Webmaster Tool的測試結果。
Url
http://www.example.org/index.php
Googlebot
Allowed by line 3: Allow: /index.php
Googlebot-Mobile
Allowed by line 3: Allow: /index.php
但是,請記住,使用此配置,除非使用完全限定路徑訪問頁面,否則您的網站主頁將不會被抓取。 換句話說,http://www.example.org/
被禁止,而http://www.example.org/index.php
被允許。
如果您希望您的主頁可以訪問,請提供更好的文件版本。
User-agent: *
Disallow:/
Allow: /index.php
Allow: /$
你能解釋爲什麼/ $工作,或者它做了什麼? – 2015-03-03 01:48:07
可以找到'/ $'的解釋[here](http://stackoverflow.com/a/29475539/1973409) – 2016-12-17 20:27:48
User-agent: *
Allow: /index.php
Disallow:/
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow:/
Sitemap: http://www.your-site-name.com/sitemap.xml
你能解釋一下你的答案嗎? – Qix 2014-08-04 01:12:36
我很好奇,你爲什麼會想這樣做......你會不會想爬蟲索引更爲您的網站? – 2009-10-28 14:33:22