0
我想拉進python的英文維基百科語料庫(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)進行一些深入的學習。我正在使用gensim。我可以加速將xml bz2文件加載到內存中嗎?
這是16GB,我坐在AWS的一臺大型EC2機器上。我加載它
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")
我在一個jupyter筆記本運行這個,但它基本上掛着試圖加載這個。我正在觀看內存消耗和其加載非常緩慢。 (12小時以上,只有〜2 GB)。任何方式,我可以加快這一點?