我試圖從谷歌新聞使用Python的通用feedparser下載一個新聞語料庫(嘗試做一些自然語言處理)。我對XML一無所知,我只是用一個如何使用feedparser的例子。 問題是,我無法在字典中找到我從RSS feed獲得的內容的新聞標題。feedparser和谷歌新聞
目前,我嘗試使用的代碼是這樣的:
import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss'
# just some GNews feed - I'll use a specific search later
feed = feedparser.parse(url)
for post in feed.entries:
print post.title
print post.keys()
我在這個崗位領取鑰匙只是標題,摘要,日期,等...有沒有內容。
這是Google新聞的一些問題還是我做錯了什麼?有沒有辦法做到這一點?
谷歌新聞不存儲實際內容據我所知,只是一個內容摘要。您需要刮掉鏈接到該內容的網站。 – Bartek 2009-11-04 02:54:35
:( 我剛剛意識到幾乎每一個相關的新聞源都是這樣的,RSS feed從不包含新聞的全文,只是摘要,我想我必須學習如何使用BeautifulSoup。 – 2009-11-04 13:56:38
我剛剛意識到如何用BeautifulSoup解析一些頁面。感謝您的回答。 – 2009-11-04 19:59:03