如何使用HTML Agility Pack獲取標記中的所有內容？

所以我正在寫一個應用程序，將做一個小屏幕抓取。我正在使用HTML Agility Pack將整個HTML頁面加載到名爲doc的HtmlDocoument實例中。現在我想解析該文檔，尋找這個：如何使用HTML Agility Pack獲取標記中的所有內容？

<table border="0" cellspacing="3"> 
<tr><td>First rows stuff</td></tr> 
<tr> 
<td> 
The data I want is in here <br /> 
and it's seperated by these annoying <br /> 's. 

No id's, classes, or even a single <p> tag. </p> Just a bunch of <br /> tags. 
</td> 
</tr> 
</table>

所以我只需要獲取第二行內的數據。我怎樣才能做到這一點？我應該使用正則表達式還是其他？

更新：這裏是我怎麼裝我doc

HtmlWeb hw = new HtmlWeb(); 
HtmlDocument doc = hw.Load(Url);

來源

2010-06-12 Bob Dylan

文檔中只有一張表嗎？如果不是，你將如何找到你感興趣的桌子？ – 2010-06-12 05:38:13

@Mark：基於'cellspacing =「3」'屬性。我明白這聽起來* hacky *（那是因爲它），但在1000+文檔中沒有其他表格包含cellspacing屬性。這不是生產代碼，只是我運行收集一些數據的項目。 – 2010-06-12 05:43:34

你的標題和問題不同意。標題：'我如何獲得

標籤中的所有內容'問題：'所以我只需要獲取第二行內的數據。'這是什麼？你能修正它，以便標題和問題匹配嗎？ – 2010-06-12 05:52:54

由於您使用Html Agility Pack已經我會建議使用它提供找到你想要的信息的方法。有幾種方法可以瀏覽文檔，但其中最簡潔的一種是使用XPath。如果您使用的是敏捷包已經

HtmlDocument doc = new HtmlDocument(); 
doc.Load("input.html"); 
HtmlNode node = doc.DocumentNode 
        .SelectNodes("//table[@cellspacing='3']/tr[2]/td") 
        .Single(); 
string text = node.InnerText;

來源

2010-06-12 05:43:06

我認爲你在正確的軌道上，但我沒有在intellisense中看到'.Single（）'方法。我正在使用HTML Agility Pack 1.4.0版。 – 2010-06-12 05:56:27

添加引用並使用System.Data.Linq; – alexn 2010-06-12 05:57:19

@alexn：我做到了，它仍然沒有出現。 – 2010-06-12 05:59:23