任何人都可以指向一個現成的RSS屏幕刮板,最好在Python中,以獲得全文RSS供稿?RSS屏幕刮板
Q
RSS屏幕刮板
3
A
回答
0
對不起,但它不存在於Python中,雖然他們在PHP中。歡迎您使用和改進我提出的名爲scraped的命令。雖然它並不是所有的網站,但它是一個基於配方的系統,目前只處理紐約時報,華爾街日報和經濟學家。我正在研究全包算法,但它是一項重大任務。它包括對不同類型的html和xml的大量分析。即使是上面提到的3個站點,如何劃分他們的站點的WSJ算法也是截然不同的算法。他們用無用的垃圾搞砸他們的HTML,主要是爲了阻止你。
以下是我正在討論的程序,它需要lxml,但它解釋了自述文件中的所有內容。它讀取配置文件,解析部分RSS源,獲取鏈接,然後擦除這些鏈接,最後制定一個RSS 2.0 xml文件。我主要將其轉換爲電子書,供我點燃。我使用lxml,BeautifulSoup和feedparser。
您也可以看看口徑項目,該項目採用了類似的方法,以我這樣做,對食譜的方式。
3
有他們here的好名單,其中提到Feed Parser,您可以用這樣的:
import feedparser
python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
"RecentChanges?action=rss_rc"
feed = feedparser.parse(python_wiki_rss_url)
然後你可以做這樣的事情:
for item in feed["items"]:
print item["title"]
1
相關問題
- 1. Scrapy RSS刮板
- 2. 刮屏幕?
- 3. C#屏幕刮板 - 處理長uri的
- 4. 谷歌腳本webbot /屏幕刮板
- 5. 使用Zend_Dom作爲屏幕刮板
- 6. 屏幕硒刮8
- 7. 屏幕刮和ajax
- 8. 簡單的屏幕使用jQuery刮刮
- 9. ASP.NET屏幕刮貼模擬
- 10. 屏幕刮靜態內容
- 11. Java屏幕刮板和飛行DOM更新像jQuery的?
- 12. 創建日誌在RPG中收集的屏幕刮板
- 13. 最好的屏幕刮板,簡單的HTML DOM或史努比?
- 14. 屏幕刮使用PHP和的fopen
- 15. 從HTML的C++屏幕刮取
- 16. Python屏幕刮掉整個網站
- 17. 使用JSoup的屏幕刮擦
- 18. Java屏幕使用套接字刮擦?
- 19. 「屏幕刮」與Jsoup元素誰有ID
- 20. 屏幕刮通過curl和PHP登錄
- 21. Rss Feed與BeautifulSoup刮擦
- 22. 需要屏幕刮屏瀏覽器,而不是網頁
- 23. 平板電腦屏幕媒體查詢多個屏幕因素
- 24. Android更改屏幕蒙板的屏幕亮度
- 25. 循環刮板
- 26. Vbulletin刮板庫?
- 27. 在clojure中刮屏
- 28. RSS提要字幕
- 29. jQuery的XML/RSS刮的問題
- 30. 如何防止我的asp.net網站被屏幕刮掉?
如果你只是想通過HTTP獲取RSS源,你只需要使用'urllib2'。你也想解析它們嗎?如果是這樣,爲了什麼? – 2010-03-02 09:34:16