我正在處理由python-lastfm庫返回的unicode字符串。在Python unicode字符串中處理錯誤編碼的字符
我假定某處路上,庫的編碼錯誤,並返回一個可能包含無效字符的unicode字符串。
例如,原來的字符串我在變量a期望是「格呂克」
>>> a u'Gl\xfcck' >>> print a Traceback (most recent call last): File "", line 1, in UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 2: ordinal not in range(128)
\ XFC爲轉義值252,其對應於「U」形的latin1編碼。不知何故,這將以python無法自行處理的方式嵌入unicode字符串中。
如何將其轉換回包含原始「Glück」的正常或unicode字符串?我嘗試瞭解解碼/編碼方法,但是得到了一個UnicodeEncodeError或者包含序列\ xfc的字符串。
你使用的是什麼版本的Python? – 2011-04-22 23:30:16
什麼操作系統?什麼是「sys.stdout.encoding」? – 2011-04-22 23:43:08
[BeautifulSoup findall with class attribute-unicode encode error]可能的重複(http://stackoverflow.com/questions/5746888/beautifulsoup-findall-with-class-attribute-unicode-encode-error) – 2011-04-23 05:48:43