word2vec

0熱度

1回答

我對每個用戶都有一個word2vec模型，所以我理解兩個單詞在不同模型上的樣子。有沒有比這更好的方式比較訓練的模型？ userAvec = Word2Vec.load(userAvec.w2v) userBvec = Word2Vec.load(userBvec.w2v) #for word in vocab, perform dot product: cosine_similarity

0熱度

3回答

從一組文檔

我有一套3000個文本文檔中提取最重要的關鍵詞，我想提取300強的關鍵詞（可以是單個詞或多個單詞）。我曾嘗試下面的方法 - RAKE：這是一個基於Python的關鍵詞提取庫，無疾而終。 Tf-Idf：它給了我每個文檔好的關鍵字，但我們不我能夠聚集並找到代表的文件全組關鍵字。另外，僅僅根據Tf-Idf得分從每個文檔中選擇前k個單詞將無濟於事，對吧？ Word2vec：我能夠做一些很酷的東西，如發

2熱度

1回答

如何用你自己的詞彙訓練word2vec

我用自己的詞彙訓練word2vec時出現錯誤。我也不明白爲什麼會發生。代碼： from gensim.models import word2vec import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) sentences = wo

0熱度

1回答

Gensim doesnt_match函數是如何工作的？

Gensim實現了一個名爲「doesnt_match」的函數，該函數從列表中返回一個異常詞。該函數在wordvector對象上調用。 model.wv.doesnt_match（「穀物早餐晚餐午餐」 .split（）） '谷' 的文檔不指定如何此功能真正發揮作用（什麼是計算的背景）有誰知道？

0熱度

1回答

針對速度（wmdistance）優化Gensim字移動器的距離函數

我使用gensimwmdistance來計算參考句子和其他1000個句子之間的相似度。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

0熱度

1回答

將Python字典轉換爲Word2Vec對象

我已經獲得了一個將單詞映射到它們在python中的向量的字典，並且我正在試圖散佈繪製n個最相似的單詞，因爲TSNE上的大量單詞正在永久存在。最好的選擇是將字典轉換爲w2v對象來處理它。

0熱度

2回答

如何在doc2vec中找到文檔中最相似的術語/詞彙？

我已經應用Doc2vec將文檔轉換爲矢量。之後，我使用矢量進行聚類，並找出每個聚類的質心最近/最相似的文檔。現在我需要找到這些文檔中最重要或最重要的術語，以便我能夠弄清楚每個集羣的特徵。我的問題是有什麼方法可以找出Doc2vec中文檔中最主要或最相近的術語/單詞。我正在使用python的gensim包來實現Doc2vec的實現

0熱度

1回答

word2vec培訓程序澄清

我試圖去學習word2vec中的skip-gram模型，但是我對一些基本概念感到困惑。首先，這裏是我目前對以示例爲動機的模型的理解。我正在使用Python gensim。這裏我有一個語料庫有三個句子。 sentences = [ ['i', 'like', 'cats', 'and', 'dogs'], ['i', 'like', 'dogs'], ['dogs',

1熱度

1回答

在gensim word2vec模型中給出文字給定文字嵌入模型的概率

我想用gensim word2vec模型獲得最可能的單詞序列。我發現了一個預訓練的模型，它提供了以下文件： word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy 這是我的代碼試圖讓句子的概率有這位模特： model = model.wv.load(word_embedding_model_path) model.hs =

0熱度

1回答

word2vec模型如何與lstm模型集成？

對於自然語言處理（NLP）任務，人們經常使用word2vec向量作爲單詞的嵌入。但是，我仍然不明白word2vec模型如何與lstm模型集成？建模NLP任務時應如何處理這些未知單詞，如使用長期短期（LSTM）網絡進行情感預測？