2012-06-24 102 views
4

我想知道如何在發佈鏈接或縮短可獲取頁面標題及其內容的鏈接服務時如何執行與Facebook類似的操作。C#從HTML文檔中提取內容

例子:

example

我的想法是隻得到從網頁純文本,例如,如果該URL是報社的,我怎麼能只得到消息的文本的文章,像在圖像中顯示。現在我一直在嘗試使用HtmlAgilityPack,但我永遠無法使文本變得乾淨。

注意這個程序是Windows Phone 7的

回答

5

你是正確的軌道上HtmlAgilityPack

如果您想要網站的所有文本,請轉至innerText屬性。但我建議你去meta description標籤(如果可用)。

編輯 - 去尋找meta description。我相信這就是Facebook正在做的:

Facebook的鏈接樣本

Facebook link sample

網站源

Site source

+0

是的,我已經試過的innerText但結果是somethind像這:http://pastebin.com/pjdG4NV6,我想要的結果是行505和518之間。 – celsoap7

+0

在這種情況下,我強烈建議你使用'meta description'標籤。 – Ruel

+0

感謝這個例子,我想現在我明白他們是如何做到的。我現在將嘗試使用描述來獲取完整的文章文本。 – celsoap7