我正在提取一個網頁(http://autoweek.com)並試圖處理它,但出現編碼錯誤。汽車週刊宣稱 「ISO-8859-1」 編碼和有單詞 「紐伯格林」(U與變音符號)Unicode問題Django-Python-URLLIB-MySQL
我做的:
# -*- encoding: utf-8 -*-
import urllib
webpage = urllib.urlopen(feed.crawl_url).read()
webpage.decode("utf-8")
它給了我下面的錯誤:
'utf8' codec can't decode bytes in position 7768-7773: unsupported Unicode code range"
如果我繞過.decode步驟並使用lxml庫進行一些解析,則在將解析標題保存到數據庫時會引發錯誤:
'utf8' codec can't decode bytes in position 45-50: unsupported Unicode code range
我的數據庫有字符集UTF8和整理的UTF-一般-CI
我的設置:
Django的
的Python 2.4.3
的MySQL 5.0.22
的MySQL-python的1.2.1
mod_python的3.2.8
我需要序列化此解決方案的所有頁面(不同的編碼)我正在抓取。所以我必須提取,提取編碼(如果聲明的話)然後解碼。 任何更簡單的解決方案? – 2009-07-09 03:54:59