我想處理維基百科轉儲文件。在其他意義上,我想提取每篇文章的標題,類別和文本內容。我想問的是有沒有任何Java API /工具可以幫助我做到這一點。 在此先感謝處理維基百科轉儲文件
4
A
回答
8
維基百科轉儲文件是XML格式。因此,您可以使用任何可用的XML工具來實現此目的。
請注意,由於轉儲文件的大小,SAX解析器通常比DOM解析器效率更高(因爲DOM解析器會嘗試將整個東西加載到內存表示中)。
1
3
看看http://code.google.com/p/jwpl/ 它的一個Java API,讓你的結構化訪問維基百科轉儲,你需要一個數據庫(MySQL或類似),以及最近的維基百科轉儲大量的RAM,至少4G技術雖然處理。
但它很好用: 你可以得到一個遍歷所有頁面或頁面標題的迭代器和更容易使用的東西。
相關問題
- 1. 維基百科轉儲文件
- 2. 多數據轉儲維基百科
- 3. Lucene的維基百科轉儲
- 4. 解析維基百科轉儲
- 5. 使用大* .bz2(維基百科轉儲)
- 6. 導入維基百科轉儲到MySql
- 7. 從維基百科轉儲文件中繼承BLOB值
- 8. 解析維基百科轉儲(.xml文件)
- 9. 從維基百科XML轉儲中獲取靜態HTML文件
- 10. 使用python轉換維基百科轉儲爲文本-m gensim.scripts.make_wiki
- 11. 並行處理維基百科的XML與數據轉儲風暴
- 12. 維基百科API
- 13. 從維基百科數據庫轉儲生成純文本
- 14. 在MySQL中導入非英文維基百科XML轉儲?
- 15. 從維基百科獲取文章XML轉儲 - 通過標題
- 16. 從維基百科轉儲提取並行文本
- 17. 維基百科:轉儲文章ID的和它的類別
- 18. 從維基百科下載pdf文件
- 19. 分裂維基百科轉儲文件分成幾個XML文件
- 20. 從維基百科獲取維基百科主題標題
- 21. PHP +維基百科:從維基百科文章的第一段獲取內容?
- 22. 維基百科:Java庫刪除維基百科文本標記刪除
- 23. API爲維基百科的
- 24. wikitools,維基百科和python
- 25. 腳本從維基百科
- 26. 尋找從維基百科
- 27. 維基百科與Python
- 28. 解析XML維基百科
- 29. 解析維基百科類
- 30. 維基百科人物API
也是使用SAX。 – ingyhere 2012-02-15 20:21:59