2009-11-13 39 views
1

我正在研究一個應用程序,我希望從某些來源(如BBC)檢索當天的重要新聞報道列表,並解析這些關鍵字,我可以使用我自己的標籤數據。顯然有很多web服務和APIs,但是你認爲哪些是好的路線。什麼是檢索當天最新新聞報道的關鍵字列表的好技術

我正在考慮的一件事是定期下載BBC新聞的RSS提要,並使用雅虎提取器解析內容。這對我來說似乎是一個很好的解決方案,但術語提取器僅用於非商業用途,我的應用程序是商業應用。

YQL看起來很有前景,但我不確定將數據壓縮爲關鍵詞有多容易。

歡迎所有建議,無論是新聞來源和關鍵字/標籤提取,以及商業和非商業用途。

更新:

大廈答案的建議,下面是來自於BBC的英國頂級新聞專賣店抓住關鍵字YQL:

select content 
from search.termextract 
where context in (
    select title 
    from rss 
    where url='http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml' 
) 

返回類似:

<?xml version="1.0" encoding="UTF-8"?> 
<query xmlns:yahoo="http://www.yahooapis.com/v1/base.rng" yahoo:count="46" yahoo:created="2009-11-13T11:49:05Z" yahoo:lang="en-US" yahoo:updated="2009-11-13T11:49:05Z" yahoo:uri="http://query.yahooapis.com/v1/yql?q=select+content+from+search.termextract+where+context+in+%28select+title+from+rss+where+url%3D%27http%3A%2F%2Fnewsrss.bbc.co.uk%2Frss%2Fnewsonline_uk_edition%2Ffront_page%2Frss.xml%27+%29"> 
    <results> 
     <Result xmlns="urn:yahoo:cate">new york</Result> 
     <Result xmlns="urn:yahoo:cate">bolt gun</Result> 
     <Result xmlns="urn:yahoo:cate">stalker</Result> 
     <Result xmlns="urn:yahoo:cate">russia</Result> 
     <Result xmlns="urn:yahoo:cate">moon</Result> 
     <Result xmlns="urn:yahoo:cate">hijack</Result> 
     <Result xmlns="urn:yahoo:cate">yacht</Result> 
     <Result xmlns="urn:yahoo:cate">balloon</Result> 
     <Result xmlns="urn:yahoo:cate">parents</Result> 
     <Result xmlns="urn:yahoo:cate">bruce forsyth</Result> 
     <Result xmlns="urn:yahoo:cate">flu</Result> 

最終,雖然我不認爲我可以在商業應用程序中使用它,但由於t呃提取服務。

回答

1

你說YQL看起來很有前途,所以我相信你已經調查過了。您可以一起使用兩個YQL服務。 search.termextract會給你的關鍵字從進行的查詢與search.news

select * from search.termextract where context in (select abstract from search.news where query="election")

你不得不反覆折騰,使特定的最新消息查詢的WHERE部分。

here:「術語提取服務限於每天每個IP地址5,000個查詢和非商業用途,請參閱速率限制的信息。」