2012-01-02 129 views
0

我想編寫Python腳本,它將得到來自2011年,2010年,2009年等關於給定主題的100條新聞/文本。按年搜索新聞的API

我需要搜索API這將滿足以下要求:

  1. 可免費,公開爲Web服務。
  2. 返回給定數量的對象。
  3. 按日期過濾。準確地說,允許從特定年份獲得物體。
  4. 退貨應包含相當長的文本(即超過100個字),它與給定 關鍵字有關。
  5. 這段文字很容易從整個響應中提取出來。

例如,我試圖與Google Web Search API:從2007年

8分第一名的成績:
https://ajax.googleapis.com/ajax/services/search/web?q=Obama+daterange%3A2454102-2454467&start=0&rsz=8&v=1.0

點1和2都滿足。按年過濾添加不太受歡迎的datarange:搜索運算符。第5點是好的,因爲響應是JSON。問題在於第4點,因爲它僅返回簡短的內容和標題。我有一個包含完整內容的頁面的URL,但是(在另一個GET請求之後),很難從整個HTML文檔中提取這些內容。

你知道這樣的API嗎?或者,也許你有另一個想法如何解決這個問題?

+0

你不想索引數據自己,對吧? – 2012-01-03 11:42:45

+0

如果是,我想我應該編寫自己的爬蟲。這是一個有趣的想法,但在這一刻沒有。 – 2012-01-03 12:42:36

回答

1

衛報(英國報)在提供數據方面非常出色。他們甚至有谷歌文檔整合。檢查http://www.guardian.co.uk/open-platform輸出

您是否需要數據才能生效,或者將簡單的數據集滿足您的需求?

+0

簡單的數據集就可以了。該API看起來不錯,但我沒有看到它可以返回一個完整的內容,或足夠長的一些其他文本來分析,點4的要求... – 2012-01-04 14:06:27

+0

我發現我可以獲取由「webUrl指向的整個文章頁面「並做了一些HTML解析後得到所有新聞的文本,所以你的答案是有幫助的,謝謝。 Akcjept。 – 2012-01-07 18:02:42

+0

他們對數據使用非常開放。 – Steve 2012-01-10 20:31:23