0
我使用了lucene的ExtractWikipedia工具來提取最新英語維基頁面的bz2轉儲。生成的.txt文件仍然具有維基百科標記語言。是否有一個工具或python腳本可以在目錄上運行,以僅解析目錄中每個文件的內容? (即:修改文件,使他們只包含內容,沒有標記)從目錄中的文件解析出維基百科標記
另外,是否有一個Java庫或包可以實現這一目標?我希望將它集成到Lucene類中,ExtractWikipedia。
我使用了lucene的ExtractWikipedia工具來提取最新英語維基頁面的bz2轉儲。生成的.txt文件仍然具有維基百科標記語言。是否有一個工具或python腳本可以在目錄上運行,以僅解析目錄中每個文件的內容? (即:修改文件,使他們只包含內容,沒有標記)從目錄中的文件解析出維基百科標記
另外,是否有一個Java庫或包可以實現這一目標?我希望將它集成到Lucene類中,ExtractWikipedia。
你可以試試這個一wikiprep這是一個現成的Perl腳本,(你需要安裝perl第一)
http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/
運行所有wikipedia dumb 可能需要幾個小時,並且可能需要大約6GB內存的大內存