我需要獲取的日常數英文維基百科有關「美元」和「歐元」的文章從06/2012-06/2016的頁面瀏覽量。使用大* .bz2(維基百科轉儲)
原始轉儲(*操作.bz2),請訪問: https://dumps.wikimedia.org/other/pagecounts-ez/merged/
例如, https://dumps.wikimedia.org/other/pagecounts-ez/merged/pagecounts-2014-01-views-ge-5-totals.bz2 2014年一月提供每小時/每日數據
問題: 解壓縮的文件過大在任何文本編輯器中打開。
期望的解決方案: 一個Python腳本讀取每個操作.bz2文件只,爲EN維基百科「美元」的搜索/「歐元」條目,並把每天的瀏覽量爲數據幀(?)。
提示:使用瀏覽量API(https://wikitech.wikimedia.org/wiki/Pageviews_API)將不會有幫助,因爲我會在2015年之前stats.grok數據需要一致的數據(http://stats.grok.se/)既不是一種選擇,因爲生成的數據是不同的,不兼容。
FWIW,[VIM](HTTP:// WWW。 vim.org/)可以毫無問題地處理任意大的文件。 – Tgr
這裏沒有任何需要,你可以'bzgrep'這些文件,因爲每一行都是關於一個頁面的。只有在你想處理數據時才需要腳本,例如總結重定向的綜合瀏覽量。 – Nemo