我碰到一個使用以下在robots.txt文件站點來的? 它會阻止網頁抓取工具抓取以下網址嗎?
https://example.com/index.php
https://example.com/index.php?page=Events&action=Upcoming
它是否也會阻止子域名?
https://subdomain.example.com/index.php
我碰到一個使用以下在robots.txt文件站點來的? 它會阻止網頁抓取工具抓取以下網址嗎?
https://example.com/index.php
https://example.com/index.php?page=Events&action=Upcoming
它是否也會阻止子域名?
https://subdomain.example.com/index.php
那麼它是做什麼的?
按規範,這意味着「網址以/*.php$
開頭」,這不是很有用。可能有引擎支持一些自定義語法。我知道一些支持通配符,但看起來像正則表達式的語法,我沒有聽說任何支持robots.txt的東西。
它會阻止網頁抓取工具抓取以下網址嗎?
通過規範:第
如果有什麼支持regexs,那麼它會阻止的第一個,但不是第二個。
它是否也會阻止子域名?
不需要。每個來源在robots.txt中都是獨立的。子域名站點需要自己的資源副本。
它看起來像正則表達式,但規範中的正則表達式爲are not。 But Google and Bing both honours通配符(*)和網址結束標記($)。你可以try your robots.txt rules here。