-2
我想從CNN的最新故事RSS訂閱中獲取最近的10,000條條目。我使用下面的Python程序要做到這一點,連接到谷歌的存檔工具如下:Google閱讀器存檔Feed無效xml?
import string
import urllib2
from xml.dom import minidom
feedAddr = "http://www.google.com/reader/atom/feed/http://rss.cnn.com/rss/cnn_topstories.rss?r=n&n=1000"
feedString = urllib2.build_opener().open(urllib2.Request(feedAddr)).read()
xml = minidom.parseString(feedString)
items = xml.getElementsByTagName("item")
for item in items:
titleNode = item.childNodes[1]
linkNode = item.childNodes[3]
titleString = titleNode.firstChild.data
linkString = linkNode.firstChild.data
print titleString, linkString
,我發現了以下錯誤:
xml.parsers.expat.ExpatError: mismatched tag: line 1285, column 4
這是與谷歌的歸檔工具的問題或飼料生成器?這是我的Python代碼的問題嗎?我是從這個頁面,拼接在CNN供稿網址漸之進網址上面看到:
http://googlesystem.blogspot.com/2007/06/reconstruct-feeds-history-using-google.html
是的,直接使用CNN RSS的建議確實值得。 – Kirill 2012-03-28 17:21:09
直接點擊不起作用。它只是返回十個左右最近的故事的部分列表。您對此需要進行身份驗證,但請將瀏覽器指向http://www.google.com/reader/atom/feed/http://rss.cnn.com/rss/cnn_topstories.rss?r=n&n= 1000給我想要的。所以我只是從一個文件中打開它。 另外,你應該真的關閉你的文件。 Python在封閉之前不會真正寫入文件。 – JeremyKun 2012-03-28 20:35:04
這是一個荒謬的評論,讓一個人用一段代碼來幫助你。當然*它不是一個完整的程序。 Geez ... – larsks 2012-03-28 21:16:14