2017-04-10 86 views
0

有人可以解釋我,我應該怎麼寫一個robots.txt文件,如果我想所有的爬蟲索引根和一些特定子域如何正確地爲子域名寫入robots.txt文件?

User-agent: * 
Allow:/
Allow: /subdomain1/ 
Allow: /subdomain2/ 

這是正確的?我應該把它放在哪裏?在根(public_html)文件夾或每個子域文件夾中?

回答

3

無法爲單個robots.txt文件中的不同子域指定規則。給定的robots.txt文件只能控制對其請求的子域的抓取。如果您想阻止某些子域名並允許其他子域名,那麼您需要爲不同的子域名投放不同的robots.txt文件。

例如,如果你想允許的http://crawlme.example.com/爬行,而是要阻止的http://nocrawl.example.com/爬行則:

http://crawlme.example.com/robots.txt應包含以下內容:

# Allow everything: 
User-agent: * 
Disallow: 

http://nocrawl.example.com/robots.txt應包含:

# Block everything: 
User-agent: * 
Disallow:/