2012-11-30 31 views
11

是否有任何類似的庫BeautifulSoupC#BeautifulSoup類似的C#

我想簡單地解析HTML和XML,特別是帶有錯誤的HTML。

+0

我之前簡單地使用了這個(大約5/6年前!?)http://htmlagilitypack.codeplex.com/,它對我所需要的東西沒有問題 - 但從來沒有對它進行廣泛的測試,它的步伐... –

+0

http://developer.mindtouch.com/SgmlReader 我以前用這個解析HTML。這是非常可靠的相當可疑的HTML – Pete

回答

8

我在過去已經使用了HTMLAgilityPack,但取得了一些成功,但它解析了HTML格式嚴重不足或缺少結束標記的問題。不過那是大約2年前。

我通常傾向於SGMLReader,它允許您用XML Reader包裝它,因此您可以在C#中輕鬆使用XDocument或XmlDocument來讀取HTML。 SGMLReader已經處理了我所投入的所有格式錯誤的HTML。