Wikileaks有一個不同尋常的robots.txt。我可以爬行什麼？

我正在通過計算如何爲Wikileaks寫一個網絡爬蟲的過程。Wikileaks有一個不同尋常的robots.txt。我可以爬行什麼？

當我到了https://wikileaks.org/robots.txt時，我能看到的是看起來似乎是一堆無害的外觀HTML，看起來好像它可能會定義一個主頁或其他東西。

我做錯了什麼？有人有理由把它放在他們的robots.txt中嗎？

2017-03-07 Umibozu

這是一個錯誤，可能是一些服務器配置錯誤。一個好的robots.txt儘可能簡單，以確保即使最便宜的爬蟲獲得它。

2017-03-07 23:13:36

感謝您的回覆。然後繼續前進。 – Umibozu

On 2016-01-03，維基解密的robots.txt是：

User-Agent: * 
Disallow: /talk/

On 2016-01-05，這是一個HTML文檔擔任純文本。

從以下日期in 2016和in 2017的所有爬行似乎都顯示此相同的無效內容（我只進行抽查）。

因此，正式來說，現在所有的東西都可以被抓取。但是，由於這顯然是他們的錯誤，所以對他們最後工作的robots.txt表示敬意將是禮貌的行爲：除了具有從/talk/開始的路徑的URL之外，允許抓取所有內容。

2017-03-08 14:52:56 unor

回答