抓取鏈接到某個網站的錨元素

我試圖找到鏈接到某個域的頁面上的任何鏈接，然後獲取鏈接href標記。抓取鏈接到某個網站的錨元素

目前，我這樣做：

foreach(HtmlAgilityPack.HtmlNode link in entryNode.SelectNodes("//a[@href='*site.com*']")) 
{ 
    MessageBox.Show(imageLink.InnerHtml); 
}

但我發現了此異常：

對象引用不設置到對象的實例。

我也嘗試//a[@href=*site.com*]沒有運氣，它說這是一個無效的標記。

什麼是XPath表達式，我需要找到鏈接到某個域的頁面上的任何鏈接？另外，我將如何去解壓縮它們的href屬性（如果可能，在同一個XPath表達式中）。

謝謝。

來源

2012-08-26 James Dawson

的XPath有一個contains方法，所以它是那麼容易，因爲這樣的：

var urls = new List<Uri>(); 
var url = new Uri("http://stackoverflow.com/questions/12131954/"); 
using (var client = new WebClient()) 
{ 
    var doc = new HtmlDocument(); 
    doc.Load(client.OpenRead(url)); 
    var links = doc.DocumentNode.SelectNodes("//a[contains(@href,'stackoverflow.com')]"); 
    foreach (var link in links) 
    { 
    var uri = new Uri(url, link.Attributes["href"].Value); //fixes relative Urls 
    if (uri.Scheme.StartsWith("http")) 
    { 
     urls.Add(uri); 
    } 
    } 
    Console.WriteLine(urls); 
}

或者你可以使用Linq用於獲取鏈接

var links = doc.DocumentNode.Descendants("a") 
    .Where(a => a.Attributes["href"] != null 
     && a.Attributes["href"].Value.ToLower().Contains("stackoverflow.com"));

而且好像你是從匹配子節點，如果你想使用相同的XPath你必須在字符串.//a[]

來源

2012-08-26 17:09:36 shriek

乾杯年初增加一個點，包含似乎正是我需要的:)不過，WH恩我用'//一個[包含（@ HREF，「site.com」）'我得到一個無效的令牌例外。 –

嗯，它適用於我很好，我的代碼張貼工作嗎？如果沒有，您使用的是什麼版本的Agility Pack？ – shriek

等待，所述的xpath必須是'//a[contains(@href,'site.com'）]'，你丟失一個']'。 – shriek

抓取鏈接到某個網站的錨元素

回答

相關問題