2015-09-24 37 views
1

我正在調查拼寫錯誤,但首先我需要建立一個很好的過程來挖掘更改日誌。不幸的是,我沒有看到查看這些日誌或排序多個日誌的好方法。有沒有人有任何經驗或知道一個好辦法去做這件事?我正在調查採礦維基百科更改日誌,但我沒有看到一個好方法去關於它

+0

你有什麼具體問題需要幫助? –

+0

OP說他們想研究拼寫錯誤。據推測他們正在尋找糾正(或引入?)拼寫錯誤的文章修訂。 –

+0

[mwdiffs](https://pythonhosted.org/mwdiffs/)和[wikiq](https://github.com/makoshark/wikiq)應該可以幫助並用於一些有趣的研究。 – Nemo

回答

0

如果你可以用歷史數據做(到2010年),你可以使用谷歌的BigQuery的這個公共數據集來尋找修改意見有提到拼寫更正(如拼寫錯誤,拼寫等):https://bigquery.cloud.google.com/table/publicdata:samples.wikipedia?pli=1

依靠評論來自我識別拼寫更正很可能會錯過很多東西,所以蠻力的方式來做到這一點是比較所有的修訂,並查看模式的差異匹配你正在尋找。所有修訂版本的轉儲文件開始enwiki-latest-pages-meta-history,並在轉儲目錄中以bz2和7z格式提供:http://dumps.wikimedia.org/enwiki/latest/。這是一個大量數據(即704 GB BZ2壓縮,108 GB的7z壓縮,15-20 TB未壓縮)

有上使用Hadoop與這些垃圾堆在這裏分析的版本(舊)教程:http://blog.mappian.com/hadoop/using-hadoop-to-analyze-the-full-wikipedia-dump-files-using-wikihadoop/

您可能還想查看之前在該領域已完成的研究,以查看是否有可以重複使用的工具,例如維基百科修訂工具包http://www.aclweb.org/anthology/P11-4017 https://dkpro.github.io/dkpro-jwpl/

相關問題