那麼,你的問題仍然有點模糊。在大多數情況下,「爬蟲」將以文本格式在網絡上查找數據,並對其進行處理以進行存儲,解析等。「Facebook Screenshot」完全是一種不同的野獸。
如果您只是在尋找一個基於web的抓取工具,可以使用幾個庫來輕鬆遍歷網頁的DOM,並且可以抓取您正在查找的內容。
如果你正在使用Python,嘗試Beautiful Soup 如果你使用Ruby,嘗試hpricot
如果你想處理一個網頁的全部內容在以後的日子,簡單地獲取並存儲所有信息underneat的「html」標籤。
這裏有一個BeautifulSoup例子下車頁面中的所有鏈接:
require 'hpricot'
require 'open-uri'
doc = Hpricot(open("http://www.stackoverflow.com"))
(doc/"a").each do |link|
puts link.attributes['href']
end
編輯:如果你打算主要從相同的網站(如reddit的評論部分,從問題抓住內容StackOverflow,Digg鏈接等),你可以對它們的格式進行硬編碼,這樣你的抓取工具就可以說:「好的,我在Reddit上,把所有的東西都放在'東西'的類中,你也可以給它一個默認東西尋找類似「主」,「內容」,「中心」等的div,例如div。
爲什麼你認爲有什麼「主要內容」? – 2009-08-05 13:53:01