2010-05-19 14 views
0

我目前自學在我的空閒時間,C#和思想「小」項目,讓我去(和一個我或其他人都會覺得很有用)。它最終比我想象的更復雜。或者,也許我只是在想它是?以某種方式使用C#解析來自博客頁面的標題和鏈接的任何建議?

無論如何,這個項目將解析博客的主頁(其中大部分是WordPress的博客),我經常去,發佈帖子和這些帖子中的鏈接,並通過任務欄中的氣球提示通知我。除了讓C#解析我需要的項目的HTML頁面的方式之外,我可以處理其餘部分。 C#似乎沒有任何內置的方法來做到這一點。任何人都可以指出我正確的方向嗎?我只是看了一下HTML敏捷包,但我仍然試圖弄清楚。一些示例代碼也會有所幫助。提前致謝!

回答

1

你,如果你使用的是HTML Agility Pack做正確的事。

這裏是選擇所有鏈接的網頁上(從here):

HtmlDocument doc = new HtmlDocument(); 
doc.Load("file.htm"); 
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"]) 
{ 
    HtmlAttribute att = link["href"]; 
    att.Value = FixLink(att); 
} 
doc.Save("file.htm"); 

您可能要刷上你XPath,如果您想了解如何查詢HtmlDocument

+0

感謝您的快速響應。我試圖從Codeplex中獲得同樣的樣品,但是我遇到了問題 - 我仍然對此非常不滿意。抱歉。 我遇到了問題:new HtmlDocument(); 它說:「錯誤:類型‘System.Windows.Forms.HtmlDocument’沒有定義構造函數」 我應該怎麼做來解決這個問題?再次感謝。 – DeVilFisCh 2010-05-19 09:25:22

+0

另外,如果有問題,我使用Visual C#2010 Express。 – DeVilFisCh 2010-05-19 09:32:27

+0

@DeVilFisCh - 你需要一個參考敏捷包添加到您的項目,並在您使用它在類爲它'using'聲明 – Oded 2010-05-19 09:37:44

相關問題