2011-08-18 15 views

回答

11

這是一個代碼點的編碼,它需要更多的代碼單元。

例如,U + 0020以單字節0x20以UTF-8表示。如果以正常方式解碼兩個字節0xc0 0xa0,您仍然會回到U + 0020,但這是無效的表示。

Unicode Corrigendum #1有更多的信息,尤其是圍繞表3.1B。

2

UTF-8在理論上允許不同表示的字符也有一個較短的字符。例如,您可以通過將MSB設置爲零來編碼兩個字節的ASCII字符。 UTF-8規範明確禁止這樣做。

+0

可怕的雙關語。向下投票。 – Computer

+0

@計算機:o.O我錯過了什麼雙關語? – Joey

+0

你說過了! – Computer