所以我正在寫一個應用程序,將做一個小屏幕抓取。我正在使用HTML Agility Pack將整個HTML頁面加載到名爲doc
的HtmlDocoument
實例中。現在我想解析該文檔,尋找這個:如何使用HTML Agility Pack獲取標記中的所有內容?
<table border="0" cellspacing="3">
<tr><td>First rows stuff</td></tr>
<tr>
<td>
The data I want is in here <br />
and it's seperated by these annoying <br /> 's.
No id's, classes, or even a single <p> tag. </p> Just a bunch of <br /> tags.
</td>
</tr>
</table>
所以我只需要獲取第二行內的數據。我怎樣才能做到這一點?我應該使用正則表達式還是其他?
更新:這裏是我怎麼裝我doc
HtmlWeb hw = new HtmlWeb();
HtmlDocument doc = hw.Load(Url);
文檔中只有一張表嗎?如果不是,你將如何找到你感興趣的桌子? – 2010-06-12 05:38:13
@Mark:基於'cellspacing =「3」'屬性。我明白這聽起來* hacky *(那是因爲它),但在1000+文檔中沒有其他表格包含cellspacing屬性。這不是生產代碼,只是我運行收集一些數據的項目。 – 2010-06-12 05:43:34
你的標題和問題不同意。標題:'我如何獲得