2012-02-29 63 views
1

我需要一些建議和可能的代碼示例來解析網站中的HTML表格。我使用webclient類從地址下載html。然後我需要找到我想要的數據表。因此,例如,如果表格ID爲<table id="cia_list",我想循環訪問<td>標籤並獲取其中的文本。什麼是最好的方法來解決這個問題?使用C#從HTML表格中獲取文本

+7

http://htmlagilitypack.codeplex.com/ – SLaks 2012-02-29 17:05:50

回答

4

在過去,我已經將HTML轉換爲XML,然後使用XSLT來解析結果。如果這是你想採取的方法,我會建議看看SGMLReader,這將處理轉換。

人們經常試圖用正則表達式來做你正在談論的東西。這是我通常建議的。這是一個有趣的職位,越過一些理由不這樣做:

RegEx match open tags except XHTML self-contained tags

+0

感謝您關於不使用正則表達式的鏈接。我曾經將這種方法視爲一種可行的選擇。 – broke 2012-02-29 17:15:12

+0

很多人都這樣做。不幸的是,HTML不合作。 – 2012-02-29 17:35:24

+0

SGMLReader非常棒。謝謝 – broke 2012-02-29 20:03:21