我正在調查拼寫錯誤,但首先我需要建立一個很好的過程來挖掘更改日誌。不幸的是,我沒有看到查看這些日誌或排序多個日誌的好方法。有沒有人有任何經驗或知道一個好辦法去做這件事?我正在調查採礦維基百科更改日誌,但我沒有看到一個好方法去關於它
1
A
回答
0
如果你可以用歷史數據做(到2010年),你可以使用谷歌的BigQuery的這個公共數據集來尋找修改意見有提到拼寫更正(如拼寫錯誤,拼寫等):https://bigquery.cloud.google.com/table/publicdata:samples.wikipedia?pli=1
依靠評論來自我識別拼寫更正很可能會錯過很多東西,所以蠻力的方式來做到這一點是比較所有的修訂,並查看模式的差異匹配你正在尋找。所有修訂版本的轉儲文件開始enwiki-latest-pages-meta-history
,並在轉儲目錄中以bz2和7z格式提供:http://dumps.wikimedia.org/enwiki/latest/。這是一個大量數據(即704 GB BZ2壓縮,108 GB的7z壓縮,15-20 TB未壓縮)
有上使用Hadoop與這些垃圾堆在這裏分析的版本(舊)教程:http://blog.mappian.com/hadoop/using-hadoop-to-analyze-the-full-wikipedia-dump-files-using-wikihadoop/
您可能還想查看之前在該領域已完成的研究,以查看是否有可以重複使用的工具,例如維基百科修訂工具包http://www.aclweb.org/anthology/P11-4017 https://dkpro.github.io/dkpro-jwpl/
相關問題
- 1. 關於維基百科礦工
- 2. 維基百科刪除日誌下載
- 3. 查看團隊構建日誌有沒有更好的方法?
- 4. NLP看點採礦方法
- 5. 什麼是用來當我讀到關於維基百科幾何/圖形文章,以創建維基百科
- 6. 爲什麼我會看到維基百科的不同頁面?
- 7. lucene維基百科查詢
- 8. 維基百科第一段
- 9. 維基百科API
- 10. 需要幫助鏈接到維基百科查看器
- 11. 在svn查看我的更新日誌
- 12. 這是一個正確的語法(在維基百科上找到c代碼)?
- 13. 從維基百科獲取維基百科主題標題
- 14. 我在哪裏可以得到維基百科XML語料庫
- 15. 維基百科API調用沒有返回結果
- 16. 維基百科的API沒有響應使用jQuery調用
- 17. 任何將內容從維基百科加載到我的網站的方法?
- 18. 有沒有一個Python模塊解析維基百科文章沒有MediaWiki?
- 19. 我的維基百科代碼不能正常工作
- 20. 最好方法與更改日誌
- 21. PHP +維基百科:從維基百科文章的第一段獲取內容?
- 22. 我添加了一個回調接口的方法來我現有的WCF服務,但在更新我的服務引用我沒有看到它
- 23. Azure:我沒有看到我所有的跟蹤日誌
- 24. Asp.net c#維基百科查詢
- 25. 查詢維基百科數據頁面
- 26. 查詢維基百科網頁API
- 27. 維基百科API查詢返回xml
- 28. 維基百科(MediaWiki)URI編碼方案
- 29. 獲取維基百科頁面查看統計信息
- 30. API爲維基百科的
你有什麼具體問題需要幫助? –
OP說他們想研究拼寫錯誤。據推測他們正在尋找糾正(或引入?)拼寫錯誤的文章修訂。 –
[mwdiffs](https://pythonhosted.org/mwdiffs/)和[wikiq](https://github.com/makoshark/wikiq)應該可以幫助並用於一些有趣的研究。 – Nemo