我想編寫Python腳本,它將得到來自2011年,2010年,2009年等關於給定主題的100條新聞/文本。按年搜索新聞的API
我需要搜索API這將滿足以下要求:
- 可免費,公開爲Web服務。
- 返回給定數量的對象。
- 按日期過濾。準確地說,允許從特定年份獲得物體。
- 退貨應包含相當長的文本(即超過100個字),它與給定 關鍵字有關。
- 這段文字很容易從整個響應中提取出來。
例如,我試圖與Google Web Search API:從2007年
點1和2都滿足。按年過濾添加不太受歡迎的datarange:搜索運算符。第5點是好的,因爲響應是JSON。問題在於第4點,因爲它僅返回簡短的內容和標題。我有一個包含完整內容的頁面的URL,但是(在另一個GET請求之後),很難從整個HTML文檔中提取這些內容。
你知道這樣的API嗎?或者,也許你有另一個想法如何解決這個問題?
你不想索引數據自己,對吧? – 2012-01-03 11:42:45
如果是,我想我應該編寫自己的爬蟲。這是一個有趣的想法,但在這一刻沒有。 – 2012-01-03 12:42:36