2011-04-23 77 views

回答

1

Google新聞顯示的大部分內容都是RSS/ATOM。與抓取相比,通過RSS提要獲取網站內容太簡單了。

除此之外,如果你可以使用Java,那麼你可以使用優秀的庫Goose自己刮html。它與Flipboard/Instapaper使用的相似

1

最簡單的解決方案是獲取您嘗試從中獲取數據的網站的RSS或ATOM供稿。

這些都是衆所周知的格式,從這些XML提要中提取信息要比從HTML頁面獲取信息容易得多:使用RSS/ATOM,您只需解析XML提要,然後提取標籤包含您感興趣的信息。

不確定你正在使用哪種語言,但有可能你可以找到一些圖書館來幫助你。


如果網站沒有導出RSS/ATOM Feed ...那麼,您可能必須回退到HTML報廢;祝你好運,因爲HTML的結構不如RSS/ATOM:您必須爲每個網站找出頁面中的相關信息。

+0

是否可以通過RSS/ATOM feed獲取有關舊文章的詳細信息? – 2013-01-24 13:00:09