2011-08-07 83 views
2

我從不同的網站抓取網頁,他們有不同的編碼。的編碼中的樣品,我得到是 -在python中將任何編碼轉換爲utf8?

  • 中文
  • TIS-620
  • UTF-16LE
  • SHIFT_JIS
  • EUC-JP
  • MacCyrillic
  • KOI8-R

除了更常見的編碼。我可以使用上面的編碼解碼網頁的unicode源代碼。

我的問題是這樣的:我想將所有的文件存儲爲utf8。如果我使用utf8編碼unicode源代碼,它是否適用於所有網頁? utf8是否支持所有的unicode代碼點?

+0

名稱的「UTF」部分代表Unicode轉換格式:任何「UTF -...」編碼都可以確實存儲所有Unicode字符。 – bobince

回答

1

短而甜,........是的!

4

是的,UTF-8只不過是一個以字節爲單位存儲整數的方案,這樣整數越小佔用的字節越少。結果是小於128的值被存儲在一個字節中,所以ASCII仍然是ASCII。 UTF-8可以表示所有Unicode碼點。