當我試圖通過解碼和再次編碼來分隔兩個Unicode字符時,我沒有得到相同的Unicode作爲回報,但我得到了不同的Unicode。解碼編碼UTF-8不會導致原始的unicode
附加是我嘗試這樣做時的回答。
>>> s ='\xf0\x9f\x93\xb1\xf0\x9f\x9a\xac'
>>> u = s.decode("utf-8")
>>> u
u'\U0001f4f1\U0001f6ac'
>>> u[0].encode("utf-8")
'\xed\xa0\xbd'
>>> u[1].encode("utf-8")
'\xed\xb3\xb1'
>>> u[0]
u'\ud83d'
>>> u[1]
u'\udcf1'
你的UTF-8字符串這兩個字符編碼'u.encode('utf-8')'給你原來的字節 – saulspatz
@Harwee對我來說工作正常--linux,python 2.7.10 – furas
@furas在Mac上用python 2.7.10,我得到的結果與日e OP – saulspatz