2010-03-02 81 views
3

任何人都可以指向一個現成的RSS屏幕刮板,最好在Python中,以獲得全文RSS供稿?RSS屏幕刮板

+0

如果你只是想通過HTTP獲取RSS源,你只需要使用'urllib2'。你也想解析它們嗎?如果是這樣,爲了什麼? – 2010-03-02 09:34:16

回答

0

對不起,但它不存在於Python中,雖然他們在PHP中。歡迎您使用和改進我提出的名爲scraped的命令。雖然它並不是所有的網站,但它是一個基於配方的系統,目前只處理紐約時報,華爾街日報和經濟學家。我正在研究全包算法,但它是一項重大任務。它包括對不同類型的html和xml的大量分析。即使是上面提到的3個站點,如何劃分他們的站點的WSJ算法也是截然不同的算法。他們用無用的垃圾搞砸他們的HTML,主要是爲了阻止你。

以下是我正在討論的程序,它需要lxml,但它解釋了自述文件中的所有內容。它讀取配置文件,解析部分RSS源,獲取鏈接,然後擦除這些鏈接,最後制定一個RSS 2.0 xml文件。我主要將其轉換爲電子書,供我點燃。我使用lxml,BeautifulSoup和feedparser。

http://tinyurl.com/yh3s9pa

您也可以看看口徑項目,該項目採用了類似的方法,以我這樣做,對食譜的方式。

3

有他們here的好名單,其中提到Feed Parser,您可以用這樣的:

import feedparser 

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \ 
         "RecentChanges?action=rss_rc" 

feed = feedparser.parse(python_wiki_rss_url) 

然後你可以做這樣的事情:

for item in feed["items"]: 
    print item["title"] 
+0

+1對於feedparser – YOU 2010-03-02 09:39:10

+1

他要求在python中使用完整的feed轉換器,而不是解析器。 – Recursion 2010-03-02 09:47:34

1

feedparser.org是偉大

+0

+1 - 對於您先生,您認爲您在我之前有一段時間(我的修訂歷史記錄沒有顯示我發佈第一個鏈接,閱讀它,看到Feed Parser在那裏介紹,並將其納入我的文章)。 – 2010-03-02 09:40:55

+0

他要求在python中使用完整的feed轉換器,而不是解析器。 – Recursion 2010-03-02 09:46:41

+0

可能你是對的,但它會是一個HTML刮,而不是RSS和它完全**站點依賴**,甚至可能會破壞網站的政策,所以讓我們使用可用的RSS提要:-) – YOU 2010-03-02 09:52:04