2017-06-12 79 views
0

我想拉進python的英文維基百科語料庫(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)進行一些深入的學習。我正在使用gensim。我可以加速將xml bz2文件加載到內存中嗎?

這是16GB,我坐在AWS的一臺大型EC2機器上。我加載它

from gensim.corpora.wikicorpus import WikiCorpus 
from gensim.models.doc2vec import Doc2Vec, TaggedDocument 
from pprint import pprint 
import multiprocessing 

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2") 

我在一個jupyter筆記本運行這個,但它基本上掛着試圖加載這個。我正在觀看內存消耗和其加載非常緩慢。 (12小時以上,只有〜2 GB)。任何方式,我可以加快這一點?

回答

1

在過去,我已經在不同的服務器上處理完全相同的文件,它從來沒有造成過任何可觀的延遲,唯一的區別是我從未使用過jupyter筆記本電腦。所以我會敢於責怪筆記本。也許使用命令外殼(或IPython)來嘗試它。

相關問題