2012-02-15 42 views
4

我想處理維基百科轉儲文件。在其他意義上,我想提取每篇文章的標題,類別和文本內容。我想問的是有沒有任何Java API /工具可以幫助我做到這一點。 在此先感謝處理維基百科轉儲文件

回答

8

維基百科轉儲文件是XML格式。因此,您可以使用任何可用的XML工具來實現此目的。

請注意,由於轉儲文件的大小,SAX解析器通常比DOM解析器效率更高(因爲DOM解析器會嘗試將整個東西加載到內存表示中)。

3

看看http://code.google.com/p/jwpl/ 它的一個Java API,讓你的結構化訪問維基百科轉儲,你需要一個數據庫(MySQL或類似),以及最近的維基百科轉儲大量的RAM,至少4G技術雖然處理。

但它很好用: 你可以得到一個遍歷所有頁面或頁面標題的迭代器和更容易使用的東西。