2010-07-26 77 views
1

我想要一種方法來下載維基百科上流行文章歷史中每一頁的內容。換句話說,我希望獲得單篇文章的全部內容。我會如何去做這件事?如何獲得維基百科文章的完整更改歷史記錄?

有沒有一種簡單的方法可以使用維基百科API來做到這一點。我看了,並沒有發現任何東西作爲一個簡單的解決方案彈出。我還查看了PyWikipedia Bot頁面(http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813)上的腳本,但沒有發現任何有用的內容。在Python或Java中執行它的一些簡單方法將是最好的,但我願意接受任何能夠爲我提供數據的簡單解決方案。

回答

2

有多種選擇。您可以使用Special:Export特殊頁面來獲取頁面歷史記錄的XML流。或者你可以使用API​​,在/w/api.php下找到。使用action=query&title=$TITLE&prop=revisions&rvprop=timestamp|user|content等獲取歷史記錄。 Pywikipedia提供了一個接口,但我不知道如何調用它。 Python的替代庫,mwclient,也提供了這個,通過site.pages[page_title].revisions()

+0

完美!那就是我正在尋找的東西。 – Robbie 2010-07-26 13:47:15

0

那麼,一個解決方案是解析維基百科XML轉儲。

只是覺得我會把它放在那裏。

如果你只是得到一個頁面,這是矯枉過正。但是,如果您不需要最新的信息,那麼使用XML將具有一次性下載而不是重複網絡點擊的優勢。

相關問題