2010-11-26 72 views
2

我正在使分享像Facebook一樣的鏈接功能。目前我正在解析元標籤來獲取關鍵字,描述等,但如何解析這些類型的頁面http://en.wikipedia.org/wiki/Wikipedia這個頁面沒有元描述,但臉書仍然提取以下描述: Wikipedia(/ˌwɪkɪpiːdi.ə/或/ˌwɪkipiːdi。 ə/ WIK-i-PEE-dee-ə)是一個免費的基於網絡的協作式多語言百科全書項目,由非營利性維基媒體基金會支持。它的1700萬篇文章(超過340萬英文)由志願者共同編寫在從外部URL中提取文本

如何在頁面上找不到元描述標記時提取這些描述。

回答

2

貌似它們所產生的描述相同的方式Bing也可能是難以輕易重新創建:

Bing如何生成我的網站的描述 ?

您設計您的網頁 內容的方式對您的網頁描述有最大影響 。當MSNBot 抓取您的網站時,它會分析索引網頁上的 內容,並且 會生成關鍵字以與每個網頁的 關聯。 MSNBot提取與 關鍵字最相關的網頁內容,並構建出現在 搜索結果中的網站描述。網頁內容 通常是 包含關鍵字或 描述標籤中的信息的句子片段。標題和URL也將被提取, 將出現在搜索結果中。

如果更改Web 頁面的內容,你的網頁的描述可能 改變下一次兵指數 更新。爲了影響您的網站 的描述,請確保您的網頁 有效地傳遞您要在搜索 結果中輸入的 信息。網管中心建議 以下策略時,你 設計內容:

* Place descriptive content near the top of each Web page. 
* Make sure that each Web page has a clear topic and purpose. 
* Create unique <title> tag content for each page. 
* Add a Web site description <meta> tag to describe the purpose of 

您網站上的每一頁。例如:

> <META NAME="Description" 
> CONTENT="Sample text - describe your 

http://www.bing.com/toolbox/support/faqs.aspx

一種選擇是打冰,並試圖從中獲取描述。

+0

嗨bendan,你能指導我如何擊中谷歌或bing? – 2010-11-29 09:42:25

+0

您可以使用Bing API進行探索:http://www.bing.com/developers/s/API%20Basics.pdf – brendan 2010-11-29 17:27:44

0

用於提取所有你需要得到什麼下載此頁和parse

System.Net.WebClient client = new System.Net.WebClient(); 

String url = "http://en.wikipedia.org/wiki/Wikipedia"; 

String pageHTMLSource = client.DownloadString(url); 

//Parse pageHTMLSource 
+0

我已經有了HTML源碼,但是如何判斷哪個標籤的文本包含適合我的描述用途的數據。它至少要有幾句話。 – 2010-11-26 15:52:22

1

如果你想創建一個程序,給你一個任意網站的很好的描述,你將不得不做一個完整的KI,甚至可能通過圖靈測試。所以簡短的回答:你不能。

如果您願意支付人工智能爲您寫網頁摘要,Google爲「Microjobs」。您可以創建一個自動化的職位描述,如「寫出關於網頁XY的兩個句子摘要」,並在其後面放置一些價值分值。

當然,你可以嘗試找到第一段文字,並拿出第一個N個句子,但這將在很多網站上失敗。

1

亞馬遜面臨類似的問題,並有一個相當新穎的solution。很顯然,這不是完美的,但通過將它與Bing使用的想法結合起來,我敢打賭,你可以得到一些非常穩定和有趣的關鍵字標籤自動生成與本質上更可疑的描述。
所以它會是這樣的:從元
有趣的句子
說明根據冰\谷歌
STP作爲標籤,與鼠標懸停上下文。

我認爲,在所有可能的情況下,這就像是一隻蒼蠅。
它會把你的問題過度到一個荒謬的程度。