上週我定義了一個函數來從期刊網站下載PDF文件。我用成功下載PDF文件幾種:Python下載PDF與urllib2創建損壞的文檔
import urllib2
def pdfDownload(url):
response=urllib2.urlopen(url)
expdf=response.read()
egpdf=open('ex.pdf','wb')
egpdf.write(expdf)
egpdf.close()
我嘗試這個功能了與:
pdfDownload('http://pss.sagepub.com/content/26/1/3.full.pdf')
在當時,這是在心理科學雜誌的網址是如何被格式化。 PDF下載得很好。
然後我寫了一些更多的代碼來實際生成URL列表併爲這些文件命名,因此我可以一次下載大量適當命名的pdf文檔。
當我回來加入我的兩個腳本(對非技術性語言抱歉,我不是專家,剛剛教導我自己的基礎知識),相關期刊URL的格式已經改變。在上一個URL之後,您可以訪問URL爲'http://journals.sagepub.com/doi/pdf/10.1177/0956797614553009'的頁面。現在,pdfDownload函數不再有效(使用原始URL或新URL)。它會創建一個不能打開的pdf,「因爲該文件不是受支持的文件類型或已被損壞」。
我很困惑,對我來說,好像所有的變化都是URL的格式化,但實際上其他的東西必須改變,導致這個?任何幫助將非常感激。
請發佈您的代碼並明確指出一些URL以測試 –
@EmmaCarey,檢查我編輯的解決方案;它似乎與新的URL一起工作。 – nrlakin