word2vec

    3熱度

    1回答

    我在Python中使用了gensim包來加載預先訓練好的Google word2vec數據集。然後我想用k-means在我的單詞向量上找到有意義的集羣,並找到每個集羣的代表性單詞。我正在考慮使用相應向量與集羣質心最接近的詞來表示該集羣,但不知道這是否是一個好主意,因爲我的實驗沒有給出好的結果。 我的示例代碼是象下面這樣: import gensim import numpy as np imp

    1熱度

    1回答

    我需要問幾個關於單詞嵌入的問題.....可能是基本的。 1.當我們將例如king [0 0 0 1 0]這個單詞的單熱矢量轉換成一個嵌入矢量時,E = [0.2,0.4,0.2,0.2] ....對每個索引是否有任何重要性在結果詞向量?例如E [1],它是0.2 ....具體來說E [1]定義了什麼(儘管我知道它基本上是向另一個空間的轉換)....或者單詞向量共同定義上下文但不是單獨地... 2

    0熱度

    1回答

    我已經嘗試了很多不同的預先訓練機型,大多有0文檔具有某種文件的幾個說,這是可能的 from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('model102938_that_cannot_be_loaded.bin', binary=True)

    1熱度

    1回答

    我用tensorflow腳本word2vec_basic.py和我保存tf.summary模型: 保護程序= tf.train.Saver() 的save_path = saver.save(SESS, 「./w2v/model.ckpt」 ) 我想象的嵌入與tensorboard成功地,但我得到的話指數在矢量 我怎樣才能得到的話在詞彙

    1熱度

    1回答

    我想找到用戶標籤的語義/相似性。 每個用戶最多可以使用4個標籤。例如,用戶1 [「機器學習」,「攝影」,「數據科學」,「神經網絡」],用戶2 [「機器學習」,「數據科學」,「統計學」,「數學」 User-2 [「地球物理學」,「機器學習」,「藝術與印刷」,「數學」]。 標籤來自廣泛的技能。我想找到標籤之間的距離/相似度。例如:「機器學習」,「數據科學」和「神經網絡」將彼此接近,類似地,「攝影」和「

    0熱度

    2回答

    我是python和word2vec的新手,並且不斷收到「訓練模型之前必須先建立詞彙表」錯誤。我的代碼有什麼問題? 這裏是我的代碼: file_object=open("SupremeCourt.txt","w") from gensim.models import word2vec data = word2vec.Text8Corpus('SupremeCourt.txt') model

    0熱度

    1回答

    can word2vec可以用來猜測剛剛上下文的單詞嗎? 已經用大數據集例如Google新聞我怎樣才能使用word2vec來預測一個類似的單詞,只用上下文「在國際象棋超過15年的統治下,他將與密蘇里州聖路易斯的九名頂尖選手競爭。」產出應該是卡斯帕羅夫或卡爾森。 我只看到了相似性apis,但我不明白如何使用它們呢?這不是word2vec如何使用?

    0熱度

    1回答

    什麼是Spacy建立矢量表示的方法? 我在自己的語料庫上執行了NLP,然後使用相似性(餘弦相似度)繪製出「相似」的文檔。然而,我不確定什麼方法空間使用創建向量表示。據我所知,我認爲它可能是word2vec skip-gram,帶有負面取樣,但是,我想確定!

    0熱度

    1回答

    我有官方github倉庫中的predict_output_word方法。它只採用用skip-gram訓練過的wod2vec模型,並嘗試通過將所有輸入詞的索引的向量相加來預測中間詞,並且通過輸入詞索引的np_sum的長度來分割該中間詞。然後,考慮輸出並採用softmax獲得預測詞的概率,然後將所有這些概率相加得到最可能的單詞。有沒有更好的方法來處理這個問題,以獲得更好的單詞,因爲這給較短的句子帶來了

    0熱度

    1回答

    我使用word2vec來表示我的單詞作爲向量。 text = np.loadtxt("file.txt", dtype=str, delimiter=" ") word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4) print(len(word2vec.wv.vocab)) 文本是單詞(字符串)的列