我有腳本獲取一些數據並通過lxml解析它。解碼'原始'字符串轉換爲unicode
最初它有lxml.etree._ElementUnicodeResult
類型,但我們可以很容易地將其轉換爲unicode
。
有一些危險的時刻。 此unicode字符串包含字符串的原始字節。雖然它的類型爲unicode
,但它保留了通常python str
的原始字節。
label
Out[53]: u'\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'
有什麼辦法這個unicode
字符串的原始字節轉換爲原始字節實際上(str
類型的蟒蛇2)。
我可以很容易地將其複製並粘貼到交互式控制檯,實際上將其轉換爲Unicode點:
'\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'
Out[54]: '\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'
'\xd0\x92\xd0\xbb\xd0\xb0\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xb8\xd1\x80'.decode('utf-8')
Out[55]: u'\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440'
如果'label'結束有該值必須有在你的代碼中的錯誤。顯示產生它的實際代碼。 – ekhumoro