我正在通過計算如何爲Wikileaks寫一個網絡爬蟲的過程。Wikileaks有一個不同尋常的robots.txt。我可以爬行什麼?
當我到了https://wikileaks.org/robots.txt時,我能看到的是看起來似乎是一堆無害的外觀HTML,看起來好像它可能會定義一個主頁或其他東西。
我做錯了什麼?有人有理由把它放在他們的robots.txt中嗎?
我正在通過計算如何爲Wikileaks寫一個網絡爬蟲的過程。Wikileaks有一個不同尋常的robots.txt。我可以爬行什麼?
當我到了https://wikileaks.org/robots.txt時,我能看到的是看起來似乎是一堆無害的外觀HTML,看起來好像它可能會定義一個主頁或其他東西。
我做錯了什麼?有人有理由把它放在他們的robots.txt中嗎?
這是一個錯誤,可能是一些服務器配置錯誤。一個好的robots.txt儘可能簡單,以確保即使最便宜的爬蟲獲得它。
On 2016-01-03,維基解密的robots.txt是:
User-Agent: * Disallow: /talk/
On 2016-01-05,這是一個HTML文檔擔任純文本。
從以下日期in 2016和in 2017的所有爬行似乎都顯示此相同的無效內容(我只進行抽查)。
因此,正式來說,現在所有的東西都可以被抓取。但是,由於這顯然是他們的錯誤,所以對他們最後工作的robots.txt表示敬意將是禮貌的行爲:除了具有從/talk/
開始的路徑的URL之外,允許抓取所有內容。
感謝您的回覆。然後繼續前進。 – Umibozu