我想從一個從互聯網下載的html頁面中提取幾個鏈接,我認爲使用linq to XML對我來說是一個很好的解決方案。
我的問題是,我不能創建從HTML一個XmlDocument,使用Load(字符串URL)沒有工作,所以我用下載的HTML字符串:如何將HTML讀取爲XML?
public static string readHTML(string url)
{
HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse res = (HttpWebResponse)req.GetResponse();
StreamReader sr = new StreamReader(res.GetResponseStream());
string html = sr.ReadToEnd();
sr.Close();
return html;
}
當我嘗試加載使用的loadXML(字符串XML)我得到的異常字符串
'--' is an unexpected token. The expected token is '>'
我應該採取什麼方式向HTML文件中讀取到一個可解析XML
HTML不一定是有效的XML。 HTML基於SGML,它本身是一種超集(一種)XML。因此,您需要一個特殊的HTML解析器,而不是一個通用的XML解析器。 – 2011-03-29 12:06:31
更多相同的答案在下面和上面評論。 HTML不是XML – 2011-03-29 12:09:09