2013-03-12 20 views
3

我想下載所有的中文維基百科數據(文本+圖片),我下載了文章,但是我對這些媒體文件感到困惑,而且遠程媒體文件也很可笑,他們是什麼?我必須下載它們嗎?下載所有維基百科圖片的文件

來源:http://ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/

zhwiki-20121104-local-media-1.tar 4.1G 
zhwiki-20121104-remote-media-1.tar 69.9G 
zhwiki-20121104-remote-media-2.tar 71.1G 
zhwiki-20121104-remote-media-3.tar 69.3G 
zhwiki-20121104-remote-media-4.tar 48.9G 

謝謝!

+0

我認爲這是巨大的,因爲這裏http://www.kiwix.org/wiki/Wikipedia_in_all_languages,我下載了3.2GB數據文件,它看起來不錯(不知道它是否加載了維基百科的圖像或不), – agou 2013-03-12 13:25:33

回答

1

我假設他們是維基共享資源中包含的媒體文件,它們是文章中的大部分圖像。從https://wikitech.wikimedia.org/wiki/Dumps/media

對於每個維基,我們轉儲映像,imagelinks並通過/backups/imageinfo/wmfgetremoteimages.py重定向表。文件被寫入數據集2上的/ data/xmldatadumps/public/other/imageinfo /。

從上面我們然後生成每個維基的所有遠程存儲(即公共)媒體列表,使用不同的參數對同一個腳本。

而且它不是從中國維基百科的所有文件,那巨大的:-)

+0

OK感謝您的鏈接...似乎我將不得不下載一些階段的大量文件... – agou 2013-03-12 13:33:18