對於某些文本挖掘應用程序,我需要識別英文維基百科中每篇文章的每個詞的頻率,並使用該數據填充MySQL數據庫。 This official page建議在轉儲中使用mwdumper或xml2sql,但它們不直接服務於我的目的(除非有人可以解釋他們的方式)。解析維基百科XML轉儲文章內容並填充MySQL數據庫的快速方法是什麼?
另一方面,使用WikiExtractor,用於Python的MySQLdb和本地MySQL服務器,允許我按照自己的意思進行操作,但它的速度很慢,需要花費一個月的時間來分析整個轉儲。對修改後的WikiExtractor程序進行性能分析表明,大部分運行時間都用於嵌套正則表達式搜索和數據庫插入。
理想情況下,我不想處理文章需要花費幾天時間。我怎樣纔能有效地做到這一點?
'maintenance/importDump.php'是我的特定需求的最快選項。它也可以通過GNU Parallel很好地工作。但不幸的是,如果你想運行合理的SQL查詢,它會給你MediaWiki SQL ... – guaka