0
我一直在尋找維基百科轉儲解析器轉換爲可自定義的xml,基本上每篇文章都應該被解析爲一組章節標籤,其中包含文章的部分純文本。我想出了以下解決方案將維基百科轉儲解析爲保存結構(部分)的純文本
與第一個問題是,它僅適用於Windows和第二不給能夠在嵌套的xml方案中生成節。 mwlib的以前的實施似乎提供這樣的功能,但遺憾的是新版本不是。有什麼可以產生可定製的xmls的Linux上的任何維基百科xml轉儲解析器?
我一直在尋找維基百科轉儲解析器轉換爲可自定義的xml,基本上每篇文章都應該被解析爲一組章節標籤,其中包含文章的部分純文本。我想出了以下解決方案將維基百科轉儲解析爲保存結構(部分)的純文本
與第一個問題是,它僅適用於Windows和第二不給能夠在嵌套的xml方案中生成節。 mwlib的以前的實施似乎提供這樣的功能,但遺憾的是新版本不是。有什麼可以產生可定製的xmls的Linux上的任何維基百科xml轉儲解析器?
我認爲這是可行的使用jsonwikipedia [1]。它會從維基百科XML轉儲中生成一個「json轉儲」。在jsonwikipedia和其他工具的更多細節在這篇博客文章[2]
[1] - https://github.com/idio/json-wikipedia
[2] - http://engineering.idioplatform.com/2016/02/18/wikipedia-toolkit.html