2009-11-11 71 views
0

有誰知道是否有標準/ API來抓取來自大多數最大新聞來源的新聞文章。抓取新聞文章

我正在使用rss爲它們編制索引,但我想用更多的數據對它們進行分類,而不僅僅是它們的標題。

回答

0

如果我的閱讀正確,你的意思是Atom

還有RSS specifications

+1

那麼大部分新聞來源不會將其文章的主要內容添加到Feed中嗎? – Roch 2009-11-19 20:10:55

+0

可悲的是,不......你必須編寫自己的爬蟲/間諜軟件來獲取所有內容。 – Trick 2009-11-20 08:10:41

1

如果你正在尋找一個API抓取來自多源新聞,你可以考慮Newsriver。 這是一個非常新的API來檢索結構化在線新聞文章。

Newsriver涵蓋大量的在線新聞來源,並且它是完全可配置的。

使用爬行作爲服務API的主要優點是,你不再需要管理以下幾個方面:

  1. 查找和維護新聞出版商的RSS源和網站的網址。
  2. URL規範化,循環和規範化。
  3. 請求限制(避免濫用抱怨)。
  4. 靜態HTML爬行和動態(Ajax)爬行。
  5. 內容提取,主文本,如圖片,視頻,地圖,鳴叫等
  6. 元數據提取(例如語言,位置,關鍵字等)
  7. 重複新聞文章檢測嵌入的對象。
+0

爲什麼這會降低投票率? – altabq 2016-11-10 17:01:16