我想用python庫或庫標記出感興趣的維基百科頁面。我最感興趣的是表格和列表。我希望能夠將這些數據導入到Postgres或Neo4j中。可以標記維基百科頁面的Python庫
例如,這裏有三組數據,我會感興趣的:
- 多少分每個國家授予彼此在2008年歐洲歌唱大賽: http://en.wikipedia.org/wiki/Eurovision_Song_Contest_2008#Final
- 貨幣名單而國家在其循環(一個多一對多的關係):http://en.wikipedia.org/wiki/List_of_solar_thermal_power_stations
其中每一個的來源都是用維基百科的標記品牌編寫的,這些標記用於渲染它們。原始數據表單中使用了許多wikipedia特有的標籤和語法。 HTML可能幾乎是更簡單的解決方案,因爲我可以使用BeautifulSoup。
任何人都知道更好的標記化方法嗎?我覺得如果我把最終的HTML和BeautifulSoup解析出來,我會重新發明。另外,如果我能找到一種方法來以XML格式輸出這些頁面,那麼表格數據可能不夠標記,並且需要進一步處理。
[Here](http://www.mediawiki.org/wiki/Alternative_parsers)是wiki語法的一些解析器。有一些Python解決方案,但您應該選擇一個生成中間表示的程序,以便進一步處理。例如,[mediawiki-parser](https://github.com/peter17/mediawiki-parser)看上去很有希望。 – schlamar
[這是一個使用mediawiki api將數據作爲XML獲取的示例。](http://stackoverflow.com/a/8045486/4279)注意:它不標記標記(對於一些特定情況,它可能更簡單處理原始文本而不是某個mediawiki標記解析器的標記化輸出)。 – jfs