2016-02-21 42 views
0

我一直在尋找維基百科轉儲解析器轉換爲可自定義的xml,基本上每篇文章都應該被解析爲一組章節標籤,其中包含文章的部分純文本。我想出了以下解決方案將維基百科轉儲解析爲保存結構(部分)的純文本

與第一個問題是,它僅適用於Windows和第二不給能夠在嵌套的xml方案中生成節。 mwlib的以前的實施似乎提供這樣的功能,但遺憾的是新版本不是。有什麼可以產生可定製的xmls的Linux上的任何維基百科xml轉儲解析器?

回答