編碼和解碼UTF-8和latin1的

2015-11-29 70 views 0 likes

我學習處理數據別人的代碼，並在此行得到了錯誤：編碼和解碼UTF-8和latin1的

chars_sst_mangled = ['à', 'á', 'â', 'ã', 'æ', 'ç', 'è', 'é', 'í', 
'í', 'ï', 'ñ', 'ó', 'ô', 'ö', 'û', 'ü'] 
sentence_fixups = [(char.encode('utf-8').decode('latin1'), char) for char in chars_sst_mangled]

的錯誤消息是

"UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)"

我不知道有什麼問題在這裏，以及如何解決它？

來源

2015-11-29 Lei Yu

看來你在python 2.X中運行這個代碼片段。由於'encode（）'方法用於將unicode轉換爲字節，並且您試圖將字節序列（編碼字符）轉換爲字節python引發此錯誤，爲解決此問題，您可以使用'decode（） '方法，將字符串（原始8位值）轉換爲unicode。 – Kasramvd

回答

代碼被破壞。

特定錯誤表明您正在嘗試使用python2可執行以運行Python代碼3：

>>> 'à'.encode('utf-8') 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

'à'是關於Python 2字節字符串，因此調用.encode()方法需要對字節串首先解碼爲Unicode。它使用sys.getdefaultencoding()，即Python 2中的'ascii'來觸發UnicodeDecodeError。

正確的方法是放棄假char.encode('utf-8').decode('latin1')轉換和使用Unicode文本來代替：

添加正確的編碼聲明例如，如果源文件使用UTF-8編碼保存，然後把# -*- coding: utf-8 -*-頂部所以在源硬編碼在字符串中，非ASCII字符將被正確解釋
此外，添加from __future__ import unicode_literals使'à'將創建一個Unicode字符串甚至Python的2

來源

2015-11-29 11:47:58 jfs

相關問題

1. UTF8 python編碼和解碼
2. PHP utf8編碼和解碼
3. utf8和編碼
4. 解碼從XYZ和編碼爲UTF8
5. knitr和UTF8編碼
6. UTF8編碼無法解碼
7. UTF8編碼和網絡流
8. 使用utf8 html編碼和latin1數據庫的Rails應用程序（ruby 1.8.7）
9. 如何將latin1編碼表轉儲爲MYSQL中的utf8編碼表？
10. JSON編碼和UTF8字符解碼在PHP

11. 的PostgreSQL：編碼「UTF8」字符在「LATIN1」在plperl存儲過程
12. 字符編碼「UTF8」的0xe28093具有「LATIN1」沒有等效
13. UTF8與Latin1的
14. latin1的MYSQL和UTF8後mysqldump的
15. 的Unicode編碼和解碼
16. MySQL的utf8編碼和獨特的鍵
17. Python編碼 - 無法解碼爲utf8
18. 使用latin1字符集編碼UTF8數據
19. Base64編碼和解碼
20. Android：編碼和解碼base64
21. Base64編碼和解碼
22. JSON編碼和解碼＃2
23. PHP json編碼和解碼
24. 數據編碼和解碼
25. HTML解碼和編碼
26. X509AttributeCertificateHolder編碼和解碼
27. JSON編碼和解碼
28. iPhone - 編碼和解碼NSValue
29. URL編碼和解碼
30. 如何解碼和編碼