0
Facebook可以(幾乎)總是從頁面中提取最重要的文本內容和圖像。我認爲一個常用的解析規則不能做到這一點。Facebook如何實現附加鏈接
Facebook如何實現它? 它是否準備瞭解析熱門網站鏈接的規則? 或者有更聰明的方法來查找HTML的真實內容?
Facebook可以(幾乎)總是從頁面中提取最重要的文本內容和圖像。我認爲一個常用的解析規則不能做到這一點。Facebook如何實現附加鏈接
Facebook如何實現它? 它是否準備瞭解析熱門網站鏈接的規則? 或者有更聰明的方法來查找HTML的真實內容?
Meta標籤。許多網站甚至會使用開放圖og
<meta>
標籤對facebook進行優化。即使是那些不使用og
往往有<meta>
標籤與像摘要有用的信息,標題,圖像等
https://developers.facebook.com/docs/opengraph/keyconcepts/
因此,要回答你的問題 - 他們不這樣做。網站爲他們做。
據我所知,有些信息可能從標題中獲得。我認爲這是大多數網站的合理解決方案。然而,FB,鏈接,谷歌+他們做得比這更好。讓我們來看看LinkedIn,並附上SO's About頁面,(http://stackoverflow.com/about)您可以看到,它提取了最重要的文本和圖像。它跳過頂部橫幅,徽標和導航欄中的文本和圖像。但是,SO's About頁面中沒有特殊的標籤或其他標題。他們甚至沒有使用