因此,在短期我的情況是這樣的:的Python 2.7編碼和feedparser
- 閱讀來自RSS訂閱源數據
- 打印內容到終端
課程和內容不簡單的ascii,它是utf-8,所以我得到了像「ääå」這樣的字符。但是,當我打印文本時,它們都會被像'\ xe4'這樣的ecapes混淆。與編碼有關,但我無法理解這一點。這應該是如此微不足道,但谷歌讓我失望。
一個例子是,當我經歷的內容一字一句,並試圖找到字符「ö」:我做的:
if u"ö" in word:
剛剛給出:UnicodeDecodeError錯誤:「ASCII」編解碼器」牛逼解碼字節0xc3位置6 ...
編輯:
所以我覺得我找到了我的問題。我得到的飼料項目,然後只是做str(entry.content)並將其傳遞給它,但是entry.content是一個列表,其中包含一個以unicode字符串作爲值的字典,所以我所做的(我猜)只是獲得了一個ascii詞典內容的表示...
http://nedbatchelder.com/text/unipain.html – 2012-04-04 13:39:43