HtmlAgilityPack UTF-8編碼

2012-03-15 74 views 0 likes

我使用HtmlAgilityPack來解析我的HTML文檔，但我無法得到正確的HTML。HtmlAgilityPack UTF-8編碼

例如：

string s="<!DOCTYPE html> 
       <li>Voltage: <0.05% + 10 mV 
       (<0.1% + 25 mV for output 2 of E3646/47/48/49A)</li> 
      </html>"; 

HtmlAgilityPack.HtmlDocument doc; 
doc.LoadHtml(s);

，但我得到：的

"<li>Voltage: <0.05% +="" 10="" mv=""></0.05%><0.1% +="" 25="" mv="" for="" output="" 2="" of=""></0.1%></li>"

代替：

"<li>Voltage: <0.05% + 10 mV (<0.1% + 25 mV for output 2 of E3646/47/48/49A)</li>"

問題是什麼？

p.s.我有一個utf-8編碼的另一個html文檔，它沒有問題。

來源

2012-03-15 Chani Poz

回答

您在li的文本有<，造成mV等等被解釋爲（它被解釋爲一個元素，因爲有它前面一個<）的0.05%元素的屬性。

您應該將其轉義爲<。

string s="<!DOCTYPE html> 
       <li>Voltage: &lt;0.05% + 10 mV 
       (&lt;0.1% + 25 mV for output 2 of E3646/47/48/49A)</li> 
      </html>";

來源

2012-03-15 13:53:29 Oded

謝謝，這是說明問題沒有連接到編碼，這是一半的答案。但是：我不能改變文字，因爲我從網站上得到它。那麼你有另外一個想法嗎？ – 2012-03-15 14:10:54

@Chanipoz - 不是。如果你沒有得到有效的HTML，你需要告訴HTML的提供者它是無效的，他們應該修復它。 – Oded 2012-03-15 14:14:44

這是唯一的方法？因爲我不能要求提供者。 – 2012-03-15 14:17:25

相關問題

11. UTF8編碼問題？
12. UTF8編碼問題
13. Grails的UTF8編碼
14. C＃HtmlAgilityPack HtmlDocument（）LoadHtml編碼
15. 使用HTMLAgilityPack進行編碼
16. UTF8編碼無法解碼
17. UTF8 python編碼和解碼
18. PHP utf8編碼和解碼
19. 更改編碼UTF8到UTF8 BOM與rebol
20. 轉換ASCII到UTF8編碼
21. 不同的utf8編碼？
22. MemoryStream的StreamReader UTF8編碼
23. Ruby UTF8編碼問題
24. Python的編碼ISO爲utf8
25. Eclipse編碼MacRoman - > UTF8
26. 設置編碼UTF8 - PHP
27. Encoding.ASCII VS編碼.UTF8錯誤
28. 編碼URL UTF8 - 殼腳本
29. Python utf8編碼問題
30. Python.27 - MySQL的utf8編碼