假設我有很多東西像Python的Unencode unicode的HTML十六進制
“words words words
字符串有沒有辦法將這些通過蟒蛇直接轉換成他們所代表的人物?
我試圖
h = HTMLParser.HTMLParser()
print h.unescape(x)
但得到這個錯誤:
UnicodeEncodeError: 'ASCII' 編解碼器在0-2位置無法編碼的字符:順序不在範圍內(128)
我也試過
print h.unescape(x).encode(utf-8)
但它編碼
“
作爲â
時,它應該是一個報價
是什麼讓你覺得'“'應該是逗號?這是從哪裏來的?把它們轉換成它們代表'h.unescape(x)'的字符呢......但是當你嘗試打印它時出現問題......試着看看它的repr –
我說的不是逗號。從上下文中可以明顯看出它是一個引用,因爲它們出現在應該有引號的字符串的開始和結尾。這個頁面在「作爲一個HTML實體字符串:」部分中顯示了這一點:http://software.hixie.ch/utilities/cgi/unicode-decoder/character-identifier?characters=%E2%80%9C – user3752900
我的錯誤...好吧,這給我更多的工作與保持 –