2016-06-20 27 views
1

我使用Gensim來訓練大小爲4的句子,並且在訓練數據集中有1192個獨特詞彙。模型len(model.vocab)中的單詞數量是141,但這沒有意義。有什麼理由看到這個?我怎樣才能改變他們的模型,爲訓練中的每一個單詞都提供一個關鍵字? 模型= Word2Vec(窗口,min_count = 1)gensim中的詞彙數量遠遠低於訓練數據中的詞彙數量

回答

0

它真的來不及回答,但也許這可以幫助別人,有在gensim.models.word2vec默認參數名爲「min_count」,默認值是5,它跳過數據集中不常見的單詞。如果你想讓所有的詞彙都在那裏,將它設置爲1。