2014-01-26 45 views
0

我使用的是Ubuntu 13.04。 我下載了英文維基百科轉儲。 .xml.bz2文件大約9Gb。在我使用命令行工具提取它之後,我得到一個大小爲44Gb的.xml文件。我無法找到合適的方法來讀取xml文件的內容。任何關於如何去做同樣的建議。我試過this。我已經使用文章中所述的方法安裝了wikidump。文章提到了我找不到的wikidump.cfg文件。另外如何在定位文件後繼續進行。 我對Linux的工作環境比較陌生。任何幫助讚賞。解析維基百科轉儲(.xml文件)

+0

目標是什麼,你爲什麼下載完整的轉儲? – frlan

回答

0

很少有系統可以讀取一個大文件大小的文件。您需要一臺至少具有44GB內存的VERY POWERFUL機器。你應該嘗試將文件分割成更小的塊,然後你就可以讀取它。

split -b 1440k my_big_file 

你是怎麼做到的。