由Google加載完整的預先訓練過的word2vec模型是一項耗時且乏味的工作,因此我想知道是否有機會刪除低於特定頻率的文字,以便將vocab
的計數降低至例如。 200k字。使用Gensim減少Google的Word2Vec模型
我發現在gensim
包Word2Vec方法來確定詞頻,並再次重新保存模型,但我不知道如何pop
/remove
從預先訓練的模型翻譯再次保存之前。我找不到KeyedVector class
和Word2Vec class
這樣的操作提示嗎?
https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/word2vec.py https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/keyedvectors.py
如何選擇預先訓練word2vec模型的詞彙的子集?