2012-10-08 28 views
0

我想提取鏈接詳細信息,如Facebook和Google。但問題是,detials(像manin文本和圖像)是不確定的。有時主文本是在p標籤中,有時它是從元標籤中提取的。那麼想知道哪些地方可以搜索?提取鏈接詳細信息,如Google和Facebook

http://forums.asp.net/p/1847212/5162336.aspx/1?extract+certain+part+of+text+like+google+and+bing 

我粘貼此鏈接在Facebook和它提取的詳細文本在p標籤,這是下面的另一個p標籤也有其內部文本。那麼如何決定呢?

回答

1

如果有問題的網站啓用了Open Graph protocol,那麼您可以解析由該標準定義的元數據。由於它與Facebook使用的系統相同(我相信Google+),因此您可能期望有相當多的網站支持它。我不會100%依賴它,但它是一個很好的工具。

+0

哇,謝謝。看起來很棒。但是我用過的網站似乎沒有使用Open Graph的標籤。以及如何檢查有問題的網站是否使用Open Graph協議? – user1575229

+0

我知道的唯一方法是解析頭並查找'og:*'元數據。 –

+0

好的。仍然看起來不錯。根據我的研究,我發現Facebook如果包含文本,首先會從元標記的content屬性中提取細節。如果帶有內容屬性的元標記中沒有文本,則它會搜索第一個具有較大字符串位置的p標記。這是我迄今發現的。仍然不確定圖像。但我認爲它會搜索文檔中最高寬度和高度的圖像並將其提取出來。 – user1575229