2017-02-19 33 views
0

這裏是代碼如何解碼從python網站提取的pfd文件?

#!/usr/bin/python 
import codecs 
import urllib.request 
resp = urllib.request.urlretrieve('http://normanpd.normanok.gov/filebrowser_download/657/2017-02-16%20Daily%20Incident%20Summary.pdf', 'test.pdf') 
with codecs.open("test.pdf") as f: 
    for line in f: 
     line.decode('utf-8') 

     print(line) 

執行上面的代碼後,我得到了如下錯誤

Traceback (most recent call last): 
    File "normanpd.py", line 6, in <module> 
    for line in f: 
    File "/usr/lib/python3.5/codecs.py", line 321, in decode 
    (result, consumed) = self._buffer_decode(data, self.errors, final) 
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 11: invalid start byte 

請幫助我得到這個問題解決了。

回答

0

是什麼讓你認爲該文件是一個編碼的字符串?它根本不是一個字符串; pdf不可讀,這是一種二進制格式。你不能迭代並打印出來。