我正在閱讀包含é
(e急性)字符的XML文檔。該文檔已被保存爲UTF-8,並且我已確認該字符是帶有二進制文件讀取器的UTF-8(它是c3
+ a9
)。但是,處理後,字符變爲三字節雜亂(c3
+ 83
+ c2
)。我的猜測是,.NET試圖將字符轉換爲UTF-16(這是我最好的猜測),或者將字符拆分爲一個單字節字符和一個雙字節UTF-8字符。XmlDocument讀取UTF-8'e-acute'字符
我加載像這樣的文件:
XmlDocuments document = new XmlDocuments();
document.Load("z:\\source.xml");
我應該如何被加載呢?我是否應該通過UTF-8編碼流閱讀此內容?
[編輯]
我忘了說我是裝宣佈自己爲UTF-8的文件。
<?xml version="1.0" encoding="utf-8"?>
「處理後」=? – 2011-12-14 05:43:23
我仍在試圖找出問題所在。我最大的懷疑是這是一個加載UTF-8爲UTF-16或其他編碼問題的問題,因爲5.1 MB文檔中沒有其他字符被更改。但我不確定。所以,是的,「完成處理後」 - 完成腳本完成運行後。 – Andrew 2011-12-14 05:47:28