2011-10-27 38 views
0

我使用了lucene的ExtractWikipedia工具來提取最新英語維基頁面的bz2轉儲。生成的.txt文件仍然具有維基百科標記語言。是否有一個工具或python腳本可以在目錄上運行,以僅解析目錄中每個文件的內容? (即:修改文件,使他們只包含內容,沒有標記)從目錄中的文件解析出維基百科標記

另外,是否有一個Java庫或包可以實現這一目標?我希望將它集成到Lucene類中,ExtractWikipedia。

回答

0

你可以試試這個一wikiprep這是一個現成的Perl腳本,(你需要安裝perl第一)

  • 刪除wiki標記語言的語言
  • 產生heirarchial類別
  • 刪除重定向
  • 產生這是很容易的XML格式解析

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

運行所有wikipedia dumb 可能需要幾個小時,並且可能需要大約6GB內存的大內存