Python中的Unicode編碼解碼問題

var = u' \u2013 2'

讓我們嘗試對其進行解碼 -

var.decode('utf-8')

我碰到下面的錯誤 -

UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 7: ordinal not in range(128)

讓我們嘗試對其進行編碼 -

var.encode('utf-8')

我碰到下面的錯誤 -

'ascii' codec can't decode byte 0xe2 in position 8: ordinal not in range(128)

一種解決方法是做 -

sys.setdefaultencoding('utf-8')

讓我知道，別人在做什麼？

你在哪裏運行？ –

你只是不明白'unicode'和'bytes'的區別。然而，Python 27並沒有設法讓它正確：unicode對象有一個'.decode'方法，並且bytestrings有一個'.encode'，這是一個無意義的。 – bgusach

讓我們嘗試解碼[Unicode字符串]

您解碼字節爲Unicode。您將編碼爲 Unicode轉換爲字節。

您無法解碼unicode字符串。

如果您嘗試，Python會自動將Unicode字符串轉換爲可解碼的字符串來幫助您：字節字符串。由於這是隱含的，它使用您的平臺的默認編碼，即ASCII。 ASCII碼不能編碼U + 2013，所以你有錯誤。

（事後看來，這一嘗試在「做什麼我的意思」的行爲是錯誤的。Python 3裏不再允許它。）

我得到「ASCII」編解碼器不能解碼位置字節0xe2 8：在範圍序數不（128）

你正在做別的事情，你有沒有告訴我們，然後，因爲編碼工作正常：

>>> u' \u2013 2'.encode('utf-8') 
' \xe2\x80\x93 2'

一種解決方案是做sys.setdefaultencoding函數（「UTF-8」）

這是從來沒有一個妥善解決事情，這是爲什麼Python中需要一些措施來阻止你這樣做。

2015-05-19 10:59:24 bobince

聲明

>>> var = u' \u2013 2'

創建你的程序中Unicode字符串對象。你似乎犯的錯誤是假設Unicode對象是編碼的：它們不是，它們的形式適合Python代碼直接使用。

當您想要傳輸Unicode字符串時，必須將其作爲字節序列來執行，這意味着您的字符串必須是編碼的。

>>> var.encode("utf-8")

給出結果

' \xe2\x80\x93 2'

這的確是你在UTF-8編碼的原始字符串。你可以用

>>> var.encode('utf-8').decode('utf-8')

，讓你回到原來的Unicode字符串驗證這一點：

u' \u2013 2'

記住 - 解碼的方式（外部表示轉換成Unicode的對象），編碼上出路（所以你的Unicode對象可以表示爲字節串）。

2015-05-19 11:06:26 holdenweb

回答