如果我正在閱讀HTML文件的XML,那麼我是否必須閱讀標記以告訴我可以讀取文件的編碼?該標籤是不是以與文件相同的方式進行編碼?我很好奇你如何閱讀該標籤而不知道編碼。我意識到這是解決問題。我只是好奇它是如何完成的。如何在不知道編碼的情況下讀取編碼頭?
更新1
我不明白,在UTF-16不會每個字符佔用2個字節,而不是一個,而且比ASCII不同?例如,UTF-16(U + 0045)中的字符E是0xfeff0045。那是0xfeff,然後是0x0045,但是一些編碼會改變那個末端。你是否必須通過檢查0xfeff並意識到不能是ASCII或什麼?
+1換句話說,處理器只是嘗試所有的編碼,直到XML編碼聲明出現在輸出中 – 2009-10-20 16:05:30