2015-05-19 33 views
2

維基百科提供了他們所有的頁面瀏覽量,每小時文本文件。 (例如,請參閱http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/提取維基媒體瀏覽量統計

對於項目,需要提取2014年的關鍵字及其關聯的頁面視圖。但看到一個文件(代表1小時,因此總計24 * 365個文件)爲〜80MB。這可能是一個艱鉅的任務,手動。

我的問題: 1.有什麼辦法可以自動下載文件嗎? (文件結構正確,這可能會有所幫助)

回答

0

我曾在這個項目上:https://github.com/idio/wikiviews 你只需要調用它像python wikiviews 2 2015,它會下載所有的文件2015年2月,並在一個文件中加入他們的行列。