我在Python中使用urllib的urlretrieve()函數來嘗試從網站獲取一些pdf。它(至少對我而言)停止工作,正在下載損壞的數據(15 KB而不是164 KB)。Python:urlretrieve PDF下載
我用幾個pdf測試過了,都沒有成功(即random.pdf)。我似乎無法使其工作,並且我需要能夠爲我正在處理的項目下載pdf。
這裏是我使用的下載PDF格式的(和分析使用pdftotext.exe文本)的那種代碼的例子:我是新手程序員
def get_html(url): # gets html of page from Internet
import os
import urllib2
import urllib
from subprocess import call
f_name = url.split('/')[-2] # get file name (url must end with '/')
try:
if f_name.split('.')[-1] == 'pdf': # file type
urllib.urlretrieve(url, os.getcwd() + '\\' + f_name)
call([os.getcwd() + '\\pdftotext.exe', os.getcwd() + '\\' + f_name]) # use xpdf to output .txt file
return open(os.getcwd() + '\\' + f_name.split('.')[0] + '.txt').read()
else:
return urllib2.urlopen(url).read()
except:
print 'bad link: ' + url
return ""
,所以任何輸入將是巨大的!謝謝
哇,這似乎很奇怪,謝謝你告訴我有關請求。 – hisroar