我希望能夠從http://en.wikipedia.org/wiki/Special:Export下載幾千條的充分的歷史和我正在尋找一個綱領性的方法來自動執行它
我開始在Python以下但沒有得到任何有用的結果有沒有辦法使用special:自動下載wikipedia文章?
query = "http://en.wikipedia.org/w/index.api?title=Special:Export&pages=%s&history=1&action=submit" % 'Page_title_here'
f = urllib.urlopen(query)
s = f.read()
有什麼建議嗎?
最壞的情況,你可以下載所有的歷史在這裏:http://download.wikimedia.org/enwiki/20100130/enwiki-20100130-pages-meta-history.xml.bz2(或http: //thepiratebay.org/torrent/6430796爲torrent) –
該文件將會變得多大? – hopeful
280GB,提取到5TB。但很快發佈一個Python解決方案。 –