2015-06-04 151 views
1

我碰到一個使用以下在robots.txt文件站點來的? 它會阻止網頁抓取工具抓取以下網址嗎?

https://example.com/index.php 
https://example.com/index.php?page=Events&action=Upcoming 

它是否也會阻止子域名?

https://subdomain.example.com/index.php 

回答

4

那麼它是做什麼的?

按規範,這意味着「網址以/*.php$開頭」,這不是很有用。可能有引擎支持一些自定義語法。我知道一些支持通配符,但看起來像正則表達式的語法,我沒有聽說任何支持robots.txt的東西。

它會阻止網頁抓取工具抓取以下網址嗎?

通過規範:第

如果有什麼支持regexs,那麼它會阻止的第一個,但不是第二個。

它是否也會阻止子域名?

不需要。每個來源在robots.txt中都是獨立的。子域名站點需要自己的資源副本。