我有一個訓練有素的Word2vec模型,使用Python的Gensim庫。我有一個標記化列表如下。該翻譯大小是34,但我在這裏只給數出34:Gensim:KeyError:「單詞不在詞彙表中」
b = ['let',
'know',
'buy',
'someth',
'featur',
'mashabl',
'might',
'earn',
'affili',
'commiss',
'fifti',
'year',
'ago',
'graduat',
'21yearold',
'dustin',
'hoffman',
'pull',
'asid',
'given',
'one',
'piec',
'unsolicit',
'advic',
'percent',
'buy']
型號
model = gensim.models.Word2Vec(b,min_count=1,size=32)
print(model)
### prints: Word2Vec(vocab=34, size=32, alpha=0.025) ####
如果我嘗試在列表中做一個model['buy']
的話得到相似度得分,我得到的
KeyError: "word 'buy' not in vocabulary"
你們可以建議我我做錯了什麼,以及有什麼方法來檢查模型,可以進一步使用訓練PCA或t-sne,以形象化形成話題的類似單詞?謝謝。