規格理由€到Ÿ想

的HTML 4.01 spec says for hexadecimal character references 規格理由€到Ÿ想

數字字符引用指定文檔字符集中的的代碼位置。

所以如果文檔字符集編碼是UTF-8，那麼數字引用應該指定一個Unicode代碼點。

的HTML5 spec says for hexadecimal character references

的符號必須遵循由U + 0023數字符號字符（＃），必須後跟一個U + 0078拉丁小寫字母X 字符（x）或一個U + 0058 LATIN CAPITAL LETTER X字符（X），其然後必須隨後在範圍內的一個或多個數字U + 0030 DIGIT 零（0）到U + 0039數字9（9），U + 0061 LATIN小寫字母A到 U + 0066拉丁小寫字母F和U + 0041 LATIN CAPITAL LETTER A到 U + 0046 LATIN CAPITAL LETTER女，代表一個鹼16整數，它對應於根據以下定義允許的Unicode代碼點。這些數字後面必須跟着一個U + 003B SEMICOLON字符（;）。

沒有提到該文件的字符集，而且它只是說，該數值標識Unicode代碼點。

但似乎所有的現代瀏覽器（我沒有測試過老的）治療&＃X80;通過&＃x9F;因爲如果他們引用的Windows 1252

例如，&＃X80;顯示€，但U + 0080不是€的代碼點，U + 20AC是。並且U + 0080的Unicode代碼點被定義爲PAD

&＃x20AC;也（正確）顯示€。

是通過瀏覽器這只是務實的行爲，或有在我缺少一個規範的理由？

[注意小數字符引用具有相同的行爲。我只是用於明確和一致的十六進制那些]

來源

2011-12-23 Alohci

我找到了我的問題的答案。它位於HTML5中解析算法的標記化部分consume a character reference，它定義了這些字符的映射。

來源

2011-12-23 15:24:43 Alohci

正如我已經做here還有，我會再次引用Wikipedia：

數字引用總是引用Unicode碼點，而不管該頁面的編碼。禁止引用永久未定義的字符和控制字符的數字引用，但換行符，製表符和回車符除外。也就是說，十六進制範圍00-08,0B-0C，0E-1F，7F和80-9F中的字符不能在HTML文檔中使用，即使通過引用也是如此，因此例如是不允許的。但是，爲了與早期HTML作者和瀏覽器的後向兼容性忽略了這一限制，80-9F範圍內的原始字符和數字字符引用被某些瀏覽器解釋爲表示在Windows-1252編碼中映射到80-9F字節的字符。

所以這似乎是一個遺留問題。

來源

2011-12-23 15:02:47 deceze

啊，是的，謝謝你。維基百科幾乎沒有一個規範，所以不完全回答這個問題，但無論如何非常有幫助。 +1 – Alohci 2011-12-23 15:09:16

規格理由€到Ÿ想

回答

相關問題