通過HtmlAgilityPack解析表標記出錯

我有一個表格的網頁，我想獲得所有的行，但是當我下載它時，我得到一個奇怪的表，有一個<tr>和許多</tr>，所以我可以不解析它。我能做什麼？通過HtmlAgilityPack解析表標記出錯

我的代碼：

WebBrowser wb = new WebBrowser(); 
    wb.ScrollBarsEnabled = false; 
    wb.ScriptErrorsSuppressed = true; 
    wb.Navigate(link); 
    while (wb.ReadyState != WebBrowserReadyState.Complete) { Application.DoEvents(); } 
    string htmlDoc = wb.DocumentText; 

    doc.LoadHtml(htmlDoc); 

    nodesHtml = doc.DocumentNode.SelectNodes("//tr");

而是要得到nodesHtml所有行，我得到的只是一排。奇怪的是，在像FF這樣的真正瀏覽器中，html標籤看起來不錯，但是當下載頁面時 - html出錯了。

這裏是鏈接：http://www.lre.com/test/searchresultx.asp?id=19

來源

2012-09-04 Chani Poz

您能否向我們提供您正在獲取的HTML代碼（或者至少是該頁面）供我們測試？ –

我添加了鏈接 –

這不順心由於該網頁是不符合相當的HTML，
看看由w3c's validator給出的結果，你會看到有堆tr和td有關閉問題。

我的建議是要麼通過Tidy運行HTML或玩弄HTMLAgilityPack的解析設置。

來源

2013-03-14 02:46:10

通過HtmlAgilityPack解析表標記出錯

回答

相關問題