我正在學習python。作爲練習,我使用feedparser構建了一個rss scraper,將輸出放入熊貓數據框中,並嘗試使用NLTK挖掘...但我首先從多個RSS提要中獲取文章列表。從FeedParser獲取Feed並導入到Pandas DataFrame
我在pass multiple feeds上使用了這篇文章,並將它與我之前得到的有關如何將它帶入Pandas dataframe的另一個問題的答案組合在一起。
問題是什麼,我希望能夠看到數據框中所有提要的數據。目前,我只能訪問Feed列表中的第一項。
FeedParser似乎在做它的工作,但將它放入熊貓df時,它似乎只抓取列表中的第一個RSS。
import feedparser
import pandas as pd
rawrss = [
'http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml',
'https://www.yahoo.com/news/rss/',
'http://www.huffingtonpost.co.uk/feeds/index.xml',
'http://feeds.feedburner.com/TechCrunch/',
]
feeds = []
for url in rawrss:
feeds.append(feedparser.parse(url))
for feed in feeds:
for post in feed.entries:
print(post.title, post.link, post.summary)
df = pd.DataFrame(columns=['title', 'link', 'summary'])
for i, post in enumerate(feed.entries):
df.loc[i] = post.title, post.link, post.summary
df.shape
df
問題是您只能看到來自DataFrame中最後一個Feed的數據,對嗎?你想要來自DataFrame中每個提要的數據? – beenjaminnn
是的。對不起,我會編輯並澄清這一點。 –