2015-04-05 122 views
4

我對一個網站感到好奇,並且想要在/s路徑上執行一些網絡爬行。 Its robots.txt美元符號在robots.txt中的含義

User-Agent: * 
Allow: /$ 
Allow: /debug/ 
Allow: /qa/ 
Allow: /wiki/ 
Allow: /cgi-bin/loginpage 
Disallow:/

我的問題是:

  • 什麼是美元符號在這種情況下,是什麼意思?

  • 是否適合抓取URL /s?關於robots.txt文件?

回答

4

如果按照original robots.txt specification$沒有特殊的意義,而沒有定義Allow場。一個符合機器人必須忽略它不知道的字段,因此這樣的機器人實際上看到這個記錄:

User-Agent: * 
Disallow:/

然而,最初的robots.txt規範已經延長了各方。但是,由於相關robots.txt的作者沒有針對特定的機器人,我們不知道他們想到哪個「擴展」。

通常(但不是必然,因爲它沒有正式規定),Allow改寫成Disallow指定的規則,並$代表URL路徑的末尾。

按照這種解釋(這是,例如,used by Google),Allow: /$將意味着:你可以爬/,但你可能不爬/a/b等。

因此,不允許抓取其路徑以/s開頭的網址(根據原始規範,這要歸功於Disallow: /,也不符合Google的擴展程序)。