2009-06-24 65 views
1

我張貼的URL博客文章在Facebook的消息 http://www.autoblog.com/2009/06/22/we-are-all-bumblebee-beijing-transformers-fans-gather-to-celebr/ 和Facebook內聯的標題和縮略文本,如果它獲取他們從RSS源 http://www.autoblog.com/rss.xml 但是當我提交的鏈接博客文章已經過期了的飼料 - 我檢查。Facebook如何預取url/feed內容?

看到這個截圖: http://i43.tinypic.com/nwbu4m.jpg

使用FeedBurner的搜索呢?這怎麼可以類似地完成?

歡呼

回答

3

我認爲他們做了一些先進的拼搶尋找數據和HTML的最顯著塊和使用。基本上,他們快速分析一切,拋出廣告等,並使用大量的數據。

Digg也在做類似的事情。

我會這樣做來實現它。

  1. 掃描元標記,rss提要標記和標題標記。
  2. 查找包含大量內容的大型「區域」。還包括p標籤。根據內容的可能性來衡量或評分他們。尋找關鍵字CSS類/ ID(例如速度「內容」不是「廣告」或「導航」
  3. 查找大量圖像
  4. 關於該網站以供將來使用
  5. 存儲信息和改進啓發式

這種更高所有這些都是在服務器端完成的,並且使用AJAX服務於瀏覽器。

+1

我認爲你是對的,它絕對是通過Ajax提供給瀏覽器的(使用Firebug進行了確認),當然服務器端的東西很漂亮複雜 對於一些沒有文本數據大「blob」的頁面,它們的算法似乎會回落以一些簡單的東西,如標籤。例如,對於此鏈接,使用。 – Peter 2009-06-24 03:12:25