目前我正在做一些實驗,這使得利用維基百科的文章。 維基百科轉儲文件約爲30GB。有工具可用(最好是PHP)或一些腳本,可以將這個整個大文件分成塊(每個文章一個xml文件)?分裂維基百科轉儲文件分成幾個XML文件
0
A
回答
1
這裏有一個文章:Building a (fast) Wikipedia offline reader描述相似
東西它可以不依賴於PHP就像你喜歡,而是討論轉儲文件分成可管理的部分。
0
我建議你使用優秀XMLReader,它允許您閱讀節點的XML文件的節點,而不是整個文件加載到內存第一。
您仍然可以瀏覽與DOM或SimpleXML的節點後!
相關問題
- 1. 維基百科轉儲文件
- 2. 處理維基百科轉儲文件
- 3. 分裂的JavaScript分成幾個文件
- 4. 解析維基百科轉儲(.xml文件)
- 5. 從維基百科XML轉儲中獲取靜態HTML文件
- 6. 在MySQL中導入非英文維基百科XML轉儲?
- 7. 從維基百科獲取文章XML轉儲 - 通過標題
- 8. 從維基百科轉儲文件中繼承BLOB值
- 9. 從維基百科數據庫轉儲生成純文本
- 10. 分裂大文件分成小文件
- 11. 從維基百科下載pdf文件
- 12. 分裂XSD計劃分成幾個文件
- 13. 正確的語法分裂大的MP3文件分成幾個
- 14. 分裂NMAP XML文件
- 15. 如何檢測維基百科頁面中的部分轉儲
- 16. 如何分解和分析特定維基百科文本
- 17. 使用python轉換維基百科轉儲爲文本-m gensim.scripts.make_wiki
- 18. 將維基百科轉儲解析爲保存結構(部分)的純文本
- 19. 解析XML維基百科
- 20. 多數據轉儲維基百科
- 21. Lucene的維基百科轉儲
- 22. 解析維基百科轉儲
- 23. 使用大* .bz2(維基百科轉儲)
- 24. 導入維基百科轉儲到MySql
- 25. 分裂大文件成更小的文件:關於「分裂」
- 26. 分裂JSON文件轉換成每個文件
- 27. 簡單的維基百科文本到純文本分析器?
- 28. 的分裂大的XML文件成小基於標籤名
- 29. 獲取維基百科分類鏈接
- 30. 如何製作維基百科分支?