word2vec

    0熱度

    1回答

    我對每個用戶都有一個word2vec模型,所以我理解兩個單詞在不同模型上的樣子。有沒有比這更好的方式比較訓練的模型? userAvec = Word2Vec.load(userAvec.w2v) userBvec = Word2Vec.load(userBvec.w2v) #for word in vocab, perform dot product: cosine_similarity

    0熱度

    3回答

    我有一套3000個文本文檔中提取最重要的關鍵詞,我想提取300強的關鍵詞(可以是單個詞或多個單詞)。 我曾嘗試下面的方法 - RAKE:這是一個基於Python的關鍵詞提取庫,無疾而終。 Tf-Idf:它給了我每個文檔好的關鍵字,但我們不我能夠聚集並找到代表的文件全組關鍵字。 另外,僅僅根據Tf-Idf得分從每個文檔中選擇前k個單詞將無濟於事,對吧? Word2vec:我能夠做一些很酷的東西,如發

    2熱度

    1回答

    我用自己的詞彙訓練word2vec時出現錯誤。我也不明白爲什麼會發生。 代碼: from gensim.models import word2vec import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) sentences = wo

    0熱度

    1回答

    Gensim實現了一個名爲「doesnt_match」的函數,該函數從列表中返回一個異常詞。 該函數在wordvector對象上調用。 model.wv.doesnt_match( 「穀物早餐晚餐午餐」 .split()) '谷' 的文檔不指定如何此功能真正發揮作用(什麼是計算的背景) 有誰知道 ?

    0熱度

    1回答

    我使用gensimwmdistance來計算參考句子和其他1000個句子之間的相似度。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

    0熱度

    1回答

    我已經獲得了一個將單詞映射到它們在python中的向量的字典,並且我正在試圖散佈繪製n個最相似的單詞,因爲TSNE上的大量單詞正在永久存在。最好的選擇是將字典轉換爲w2v對象來處理它。

    0熱度

    2回答

    我已經應用Doc2vec將文檔轉換爲矢量。之後,我使用矢量進行聚類,並找出每個聚類的質心最近/最相似的文檔。現在我需要找到這些文檔中最重要或最重要的術語,以便我能夠弄清楚每個集羣的特徵。 我的問題是有什麼方法可以找出Doc2vec中文檔中最主要或最相近的術語/單詞。我正在使用python的gensim包來實現Doc2vec的實現

    0熱度

    1回答

    我試圖去學習word2vec中的skip-gram模型,但是我對一些基本概念感到困惑。首先,這裏是我目前對以示例爲動機的模型的理解。我正在使用Python gensim。 這裏我有一個語料庫有三個句子。 sentences = [ ['i', 'like', 'cats', 'and', 'dogs'], ['i', 'like', 'dogs'], ['dogs',

    1熱度

    1回答

    我想用gensim word2vec模型獲得最可能的單詞序列。我發現了一個預訓練的模型,它提供了以下文件: word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy 這是我的代碼試圖讓句子的概率有這位模特: model = model.wv.load(word_embedding_model_path) model.hs =

    0熱度

    1回答

    對於自然語言處理(NLP)任務,人們經常使用word2vec向量作爲單詞的嵌入。但是,我仍然不明白word2vec模型如何與lstm模型集成? 建模NLP任務時應如何處理這些未知單詞,如使用長期短期(LSTM)網絡進行情感預測?