我試圖用「解析 - MediaWikiDump-1.0.4」與「Wikiprep.pl」腳本一起解析XML維基百科轉儲。我猜這個腳本可以在ver0.3 Wiki XML Dumps中正常工作,但不能與最新的ver0.4 Dump一起使用。我收到以下錯誤。解析XML維基轉儲ver0.4剛韌
通過包無法找到對象的方法「頁」,「解析:: MediaWikiDump ::網頁」,wikiprep.pl線390
此外,「解析 - MediaWikiDump-1.0.4」的文件下@http://search.cpan.org/~triddle/Parse-MediaWikiDump-1.0.4/lib/Parse/MediaWikiDump/Pages.pm,我讀了「LIMITATIONS Version 0.4」這個類已更新爲支持來自MediaWiki實例的0.4版轉儲文件,但它目前不支持這些文件中提供的任何新信息。「
任何變通,會幫我去一個新的水平。
注:一個可能想知道爲什麼我們不能直接使用SAX或STAX解析器代替,維基百科轉儲是25GB加上單個文件,堆/內存問題是顯而易見的。因此,上面的Perl腳本解決了這個問題,但目前我堅持這個版本問題。
非常感謝...這個信息將是非常有益的,我很感激。 – syed 2010-06-05 23:15:55