我正嘗試使用urllib和urllib2從包含法語字符的文本文件中讀取,如「é」,「à」等。從URL中讀取unicode中的文本文件?
def load(url):
from urllib2 import Request, urlopen, URLError, HTTPError
req = Request(url)
f = urlopen(req)
f.readline()
for line in f:
line = line.split('\t')
word = line[0].encode('utf-8')
我有一種感覺,read()方法返回我一個字節的字符串,所以我使用的編碼(「UTF-8」)獲得的Unicode值,但是這給了我下面的錯誤
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 6: ordinal not in range(128)
有人能告訴我發生了什麼事嗎?任何幫助,將不勝感激。謝謝!