RSS屏幕刮板

任何人都可以指向一個現成的RSS屏幕刮板，最好在Python中，以獲得全文RSS供稿？RSS屏幕刮板

2010-03-02 James Wanchai

如果你只是想通過HTTP獲取RSS源，你只需要使用'urllib2'。你也想解析它們嗎？如果是這樣，爲了什麼？ – 2010-03-02 09:34:16

對不起，但它不存在於Python中，雖然他們在PHP中。歡迎您使用和改進我提出的名爲scraped的命令。雖然它並不是所有的網站，但它是一個基於配方的系統，目前只處理紐約時報，華爾街日報和經濟學家。我正在研究全包算法，但它是一項重大任務。它包括對不同類型的html和xml的大量分析。即使是上面提到的3個站點，如何劃分他們的站點的WSJ算法也是截然不同的算法。他們用無用的垃圾搞砸他們的HTML，主要是爲了阻止你。

以下是我正在討論的程序，它需要lxml，但它解釋了自述文件中的所有內容。它讀取配置文件，解析部分RSS源，獲取鏈接，然後擦除這些鏈接，最後制定一個RSS 2.0 xml文件。我主要將其轉換爲電子書，供我點燃。我使用lxml，BeautifulSoup和feedparser。

http://tinyurl.com/yh3s9pa

您也可以看看口徑項目，該項目採用了類似的方法，以我這樣做，對食譜的方式。

來源

2010-03-02 09:43:45 Recursion

有他們here的好名單，其中提到Feed Parser，您可以用這樣的：

import feedparser 

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \ 
         "RecentChanges?action=rss_rc" 

feed = feedparser.parse(python_wiki_rss_url)

然後你可以做這樣的事情：

for item in feed["items"]: 
    print item["title"]

來源

2010-03-02 09:34:43

+1對於feedparser – YOU 2010-03-02 09:39:10

他要求在python中使用完整的feed轉換器，而不是解析器。 – Recursion 2010-03-02 09:47:34

feedparser.org是偉大

來源

2010-03-02 09:35:29 YOU

+1 - 對於您先生，您認爲您在我之前有一段時間（我的修訂歷史記錄沒有顯示我發佈第一個鏈接，閱讀它，看到Feed Parser在那裏介紹，並將其納入我的文章）。 – 2010-03-02 09:40:55

他要求在python中使用完整的feed轉換器，而不是解析器。 – Recursion 2010-03-02 09:46:41

可能你是對的，但它會是一個HTML刮，而不是RSS和它完全**站點依賴**，甚至可能會破壞網站的政策，所以讓我們使用可用的RSS提要:-) – YOU 2010-03-02 09:52:04

回答

相關問題