我設計一個網站,擦傷頂尖技術網站,如thenextweb.com,mashable.com和readwriteweb.com等在c#中使用htmlagilitypack從網頁中提取鏈接和帖子的方法?
現在使用HTML敏捷性包放棄的一種方式是採取一個網站讓thenextweb.com和根據其<tags>
獲取其文章鏈接和內容,即使用<div class ="article-listing"> ..... </div>
並通過該鏈接獲取鏈接。 以相同的方式爲每個網站設計算法(因爲每個網站的標籤不同)。
這是我用來從網站thenextweb.com的主頁獲取鏈接:
var webGet = new HtmlWeb();
var document = webGet.Load(url);
var infos = from info in
document.DocumentNode.SelectNodes("//div[@class='article-listing']")
select new
{
Contr = info.InnerHtml
};
lvLinks.DataSource = infos;
lvLinks.DataBind();
是否有任何其他簡單的方式,通過它我可以提取鏈接和內容(崗位和圖片,日期等) ?
謝謝,但這不是我想要做的。 – ItsLockedOut 2012-01-06 04:12:51
@iKunu - 您可以編輯問題並準確解釋您需要什麼,以及爲什麼這不能解決問題? RSS是從網站獲取故事的首選方式... – Kobi 2012-01-06 14:44:24
:我需要對所有故事進行一些剪裁操作......這就是爲什麼我需要從網頁上抓取它們。但是現在我找到了一種方法來做到這一點。謝謝 – ItsLockedOut 2012-01-07 03:17:08