2017-03-07 17 views

回答

1

這是一個錯誤,可能是一些服務器配置錯誤。一個好的robots.txt儘可能簡單,以確保即使最便宜的爬蟲獲得它。

+0

感謝您的回覆。然後繼續前進。 – Umibozu

3

On 2016-01-03,維基解密的robots.txt是:

User-Agent: * 
Disallow: /talk/ 

On 2016-01-05,這是一個HTML文檔擔任純文本。

從以下日期in 2016in 2017的所有爬行似乎都顯示此相同的無效內容(我只進行抽查)。

因此,正式來說,現在所有的東西都可以被抓取。但是,由於這顯然是他們的錯誤,所以對他們最後工作的robots.txt表示敬意將是禮貌的行爲:除了具有從/talk/開始的路徑的URL之外,允許抓取所有內容。

相關問題