我使用Bing API編寫了Python 2.6中的網絡爬蟲,該API搜索特定文檔,然後將其下載以供以後進行分類。我一直在使用字符串的方法和urllib.urlretrieve()
下載結果,其URL以.pdf,.PS等結束,但我碰到麻煩時,該文件是「隱藏」的URL後面,如:使用Python下載URL中未明確引用的文檔
http://www.oecd.org/officialdocuments/displaydocument/?cote=STD/CSTAT/WPNA(2008)25&docLanguage=En
所以,有兩個問題。有沒有一種方法可以判斷一個URL是否有一個pdf/doc等文件,如果它沒有明確地這樣做(如www.domain.com/file.pdf),它就會鏈接到它?有沒有辦法讓Python截獲該文件?
編輯: 感謝您的回覆,其中幾個建議下載文件,看它是否是正確的類型。唯一的問題是......我不知道該怎麼做(參見上面的問題#2)。 urlretrieve(<above url>)
只給出一個包含相同url的href文件。
我一直在尋找到這樣的事情我自己。我使用os.system()來調用「curl -I url」並通過頭部結果進行解析以獲得我所需的內容。 – MRR0GERS 2010-10-21 15:18:47