如何在不知道編碼的情況下讀取編碼頭？

如果我正在閱讀HTML文件的XML，那麼我是否必須閱讀標記以告訴我可以讀取文件的編碼？該標籤是不是以與文件相同的方式進行編碼？我很好奇你如何閱讀該標籤而不知道編碼。我意識到這是解決問題。我只是好奇它是如何完成的。如何在不知道編碼的情況下讀取編碼頭？

更新1

我不明白，在UTF-16不會每個字符佔用2個字節，而不是一個，而且比ASCII不同？例如，UTF-16（U + 0045）中的字符E是0xfeff0045。那是0xfeff，然後是0x0045，但是一些編碼會改變那個末端。你是否必須通過檢查0xfeff並意識到不能是ASCII或什麼？

來源

2009-10-20 Anthony D

這裏是W3C不得不說一下吧：

的XML編碼聲明在實體中以內部標籤，指示哪些字符編碼是使用。然而，在一個XML處理器可以讀取內部標籤之前，顯然必須知道哪些字符正在使用 - 哪些是內部標籤試圖指示的內容。在一般情況下，這是一個無望的情況。這不是在XML完全無望，但是，因爲XML 以兩種方式限制了一般的情況：每個實現被假定爲僅支持有限的一組字符編碼，並且所述XML編碼聲明在位置限制和內容，以便使其可行，以自動檢測編碼中正在使用的每個實體中的正常情況。

http://www.w3.org/TR/2000/REC-xml-20001006#sec-guessing

來源

2009-10-20 15:46:57

+1換句話說，處理器只是嘗試所有的編碼，直到XML編碼聲明出現在輸出中 – 2009-10-20 16:05:30