內置解析任何原始HTML的方法

我開始編寫一個應用程序，該應用程序應從任何指定的HTML頁面中檢索元標記內容。當我爲此使用.NET 2.0時，我無法使用LINQ to XML或現代的東西。所以，我嘗試使用XmlDocument類。不幸的是，它無法使用大多數HTML都是無效的XML文檔。內置解析任何原始HTML的方法

我甚至無法使用HtmlAgilityPack，因爲我正在編寫計劃在未來銷售的應用程序，所以它可能不符合商業需求。

使用XmlReader似乎太難了。

那麼，你們如何解決這個問題？

帖子編輯

另外一個原因，我最好避免使用HtmlAgilityPack的是，它是如此巨大的lib添加到我的項目。保持項目儘可能小，我會更高興。

你們是否真的建議我使用HtmlAgilityPack任何方式？

來源

2012-02-04 kseen

HtmlAgilityPack有什麼問題？ – 2012-02-04 17:43:28

我，因爲我正在寫的應用程序，我計劃在將來出售，甚至不能使用HtmlAgilityPack，所以它可能不適合商業需求。

HtmlAgilityPack使用微軟公共許可（MS-PL），這將讓你在商業產品中使用它，這是非常自由的 - 也看到"How does MS-PL license work?"和Microsoft Public License (Ms-PL)

來源

2012-02-04 17:47:14 BrokenGlass

你可否請檢閱我的文章編輯？ – kseen 2012-02-05 05:15:52

HtmlDocument doc = new System.Windows.Forms.WebBrowser().Document.OpenNew(true); 
doc.Write("<HTML><BODY>This is a new HTML document.</BODY></HTML>");

見MSDN。

請注意，這是一個WebForms控件，您可能會面臨將WebForms應用程序運行出來的不同問題。

來源

2012-02-04 17:51:49 abatishchev

內置解析任何原始HTML的方法

回答

相關問題