2016-04-01 91 views
0

我想獲取維基百科頁面的內容,然後用它做一些有趣的事情。Wikipedia內容解析JSON

這個想法是,我想讓他們在XML/JSON格式,目前我似乎沒有找到辦法做到這一點。

對於我成功地讓這一步的時刻:

https://en.wikipedia.org/w/api.php?action=query&format=jsonfm&prop=revisions&titles=April_1&rvprop=content&rvcontentformat=text%2Fx-wiki

卜我收到XWiki實現的內容,我不能將其更改爲JSON由於該網頁不支持它。

如何解析XWiki到JSON或如何獲取頁面的內容。

謝謝!

+0

你會如何將XWiki格式轉換爲json?如果你真的可以用json來表示它,你如何期待輸出結果? – f1sh

+0

因此,如果我們以4月1日的頁面爲例,我想將它看作一棵樹,第一級的孩子是事件,出生,死亡,假期和紀念活動,外部鏈接,然後孩子們將與事件之後或只是年+事件。 –

+1

這不是維基百科的結構。每一頁都只是文字。其中有一個結構是XWiki標記的結果。如果你想把它轉換成結構化的JSON,你將不得不編寫一個轉換器。 – f1sh

回答

0

是的,您可以使用XWiki Rendering中的HTML解析器來解析由wikipedia生成的HTML。這給你一個AST,你可以根據自己的意願做任何事情。

有關更多詳細信息,請參見http://rendering.xwiki.org/xwiki/bin/view/Main/WebHome

你只需要找到一種方法來獲取HTML中的維基百科內容。