Q

從目錄中的文件解析出維基百科標記

2011-10-27 78 views 0 likes

0

我使用了lucene的ExtractWikipedia工具來提取最新英語維基頁面的bz2轉儲。生成的.txt文件仍然具有維基百科標記語言。是否有一個工具或python腳本可以在目錄上運行，以僅解析目錄中每個文件的內容？（即：修改文件，使他們只包含內容，沒有標記）從目錄中的文件解析出維基百科標記

另外，是否有一個Java庫或包可以實現這一目標？我希望將它集成到Lucene類中，ExtractWikipedia。

2011-10-27 Dan Q

A

回答

0

你可以試試這個一wikiprep這是一個現成的Perl腳本，（你需要安裝perl第一）

刪除wiki標記語言的語言
產生heirarchial類別
刪除重定向
產生這是很容易的XML格式解析

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

運行所有wikipedia dumb 可能需要幾個小時，並且可能需要大約6GB內存的大內存

2011-11-01 00:14:47

相關問題