我從不同的網站抓取網頁,他們有不同的編碼。的編碼中的樣品,我得到是 -在python中將任何編碼轉換爲utf8?
- 中文
- TIS-620
- UTF-16LE
- SHIFT_JIS
- EUC-JP
- MacCyrillic
- KOI8-R
除了更常見的編碼。我可以使用上面的編碼解碼網頁的unicode源代碼。
我的問題是這樣的:我想將所有的文件存儲爲utf8。如果我使用utf8編碼unicode源代碼,它是否適用於所有網頁? utf8是否支持所有的unicode代碼點?
我從不同的網站抓取網頁,他們有不同的編碼。的編碼中的樣品,我得到是 -在python中將任何編碼轉換爲utf8?
除了更常見的編碼。我可以使用上面的編碼解碼網頁的unicode源代碼。
我的問題是這樣的:我想將所有的文件存儲爲utf8。如果我使用utf8編碼unicode源代碼,它是否適用於所有網頁? utf8是否支持所有的unicode代碼點?
短而甜,........是的!
是的,UTF-8只不過是一個以字節爲單位存儲整數的方案,這樣整數越小佔用的字節越少。結果是小於128的值被存儲在一個字節中,所以ASCII仍然是ASCII。 UTF-8可以表示所有Unicode碼點。
名稱的「UTF」部分代表Unicode轉換格式:任何「UTF -...」編碼都可以確實存儲所有Unicode字符。 – bobince