2013-02-12 126 views
2

我試圖從xml解析維基百科頁面。 我使用特殊:導出鏈接以獲取頁面的就是那樣的鏈接XML:從維基百科頁面獲取xml

http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis

但是,當我試圖讓我不能使用這個鏈接文件或目錄頁,例如,該頁面不返回XML:

的http:// en.wikipedia.org/wiki/Special:Export/Category:English-language_films

的http:// en.wikipedia.org /wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

我找到了一個解決方案,但我不明白:

  1. 將名稱空間添加到頁面名稱的前綴(例如, 'Help:Contents'), ,除非選定的命名空間是主命名空間。
  2. 重複上述用於其他命名空間的步驟(如產品類別: 模板:等)

將該溶液我發現在http://meta.wikimedia.org/wiki/Help:Export。 這是什麼意思請。

謝謝。

+0

嗨,我不知道你在說什麼。 http://en.wikipedia.org/wiki/Special:Export/Category:English-language_films確實爲我生成了一個XML。你是在尋找一個類別中的__頁面_而不是? – BenMQ 2013-02-12 13:14:15

+0

是的,那我在找什麼 – 2013-02-12 14:40:34

回答

3

Special:Export生成給定頁面的內容,但'類別的文章列表'或'文件'不是頁面。你從導出得到的只是類別或文件描述頁面的xml。

以檢索的beloning到某一類頁的列表,你需要MediaWiki的API:Categorymembers .

嘗試this example。您也可以玩弄API Sandbox以瞭解不同的參數。

無法直接下載文件。但是,imageinfo API可以爲您生成文件的URL,例如this example

另請參閱:Download images with MediaWiki API?

+0

謝謝,這是非常有幫助的 – 2013-02-13 17:31:23