0
我已經訓練了Glove〜5M 西班牙文文章。我知道如何在gensim中加載這個GloVe,並將它用作word2vec模型。 現在我正面臨從新聞文章(也用西班牙文)中提取主題建模和關鍵字的問題,所以我想知道如何使用訓練好的模型來做到這一點。如何使用經過培訓的GloVe/word2vec模型從文章中提取關鍵字?
我該怎麼辦?
我已經訓練了Glove〜5M 西班牙文文章。我知道如何在gensim中加載這個GloVe,並將它用作word2vec模型。 現在我正面臨從新聞文章(也用西班牙文)中提取主題建模和關鍵字的問題,所以我想知道如何使用訓練好的模型來做到這一點。如何使用經過培訓的GloVe/word2vec模型從文章中提取關鍵字?
我該怎麼辦?
關於如何使用word2vec模型的問題非常一般,所以我的答案也是如此。
word2vec允許你做的是提供一個「更好」的單詞表示。因此,也許如果你在主題建模中使用「詞語袋」作爲特徵,你可以用word2vec中的「詞語向量袋」代替它,希望能給你更好的語義相似性。也許更好的關鍵字。
但是,我應該如何用word2vec表示文本? word2vec代表單詞,而不是文本。我對嗎? – hipoglucido
這取決於你的問題。由於文本是全部(或大部分)單詞,因此應該在文本中選擇一些(或全部)單詞以創建word2vec表示形式。這可以像從word2vec獲得的矢量的總和一樣簡單。您可以將該矢量(例如)與使用餘弦相似度或其他度量標註的主題進行比較。 – ozborn
但是,如果我只總結它們,即使使用相似的詞並且它們的含義相同,較長的文本的向量也可能與較短的向量有所不同。我不應該使用其他轉換嗎?從文本中的所有單詞中取出意思是什麼?非常感謝。 – hipoglucido