word2vec

3熱度

1回答

我在Python中使用了gensim包來加載預先訓練好的Google word2vec數據集。然後我想用k-means在我的單詞向量上找到有意義的集羣，並找到每個集羣的代表性單詞。我正在考慮使用相應向量與集羣質心最接近的詞來表示該集羣，但不知道這是否是一個好主意，因爲我的實驗沒有給出好的結果。我的示例代碼是象下面這樣： import gensim import numpy as np imp

1熱度

1回答

Word嵌入，LookupTable，Word嵌入可視化

我需要問幾個關於單詞嵌入的問題.....可能是基本的。 1.當我們將例如king [0 0 0 1 0]這個單詞的單熱矢量轉換成一個嵌入矢量時，E = [0.2,0.4,0.2,0.2] ....對每個索引是否有任何重要性在結果詞向量？例如E [1]，它是0.2 ....具體來說E [1]定義了什麼（儘管我知道它基本上是向另一個空間的轉換）....或者單詞向量共同定義上下文但不是單獨地... 2

0熱度

1回答

如何加載word2vec向量？

我已經嘗試了很多不同的預先訓練機型，大多有0文檔具有某種文件的幾個說，這是可能的 from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('model102938_that_cannot_be_loaded.bin', binary=True)

1熱度

1回答

可視化嵌入tensorboard

我用tensorflow腳本word2vec_basic.py和我保存tf.summary模型：保護程序= tf.train.Saver（）的save_path = saver.save（SESS，「./w2v/model.ckpt」）我想象的嵌入與tensorboard成功地，但我得到的話指數在矢量我怎樣才能得到的話在詞彙

1熱度

1回答

查找用戶標籤之間的距離/相似度的算法？

我想找到用戶標籤的語義/相似性。每個用戶最多可以使用4個標籤。例如，用戶1 [「機器學習」，「攝影」，「數據科學」，「神經網絡」]，用戶2 [「機器學習」，「數據科學」，「統計學」，「數學」 User-2 [「地球物理學」，「機器學習」，「藝術與印刷」，「數學」]。標籤來自廣泛的技能。我想找到標籤之間的距離/相似度。例如：「機器學習」，「數據科學」和「神經網絡」將彼此接近，類似地，「攝影」和「

0熱度

2回答

Word2Vec詞彙表未定義錯誤

我是python和word2vec的新手，並且不斷收到「訓練模型之前必須先建立詞彙表」錯誤。我的代碼有什麼問題？這裏是我的代碼： file_object=open("SupremeCourt.txt","w") from gensim.models import word2vec data = word2vec.Text8Corpus('SupremeCourt.txt') model

0熱度

1回答

word2vec guesing word embeddings

can word2vec可以用來猜測剛剛上下文的單詞嗎？已經用大數據集例如Google新聞我怎樣才能使用word2vec來預測一個類似的單詞，只用上下文「在國際象棋超過15年的統治下，他將與密蘇里州聖路易斯的九名頂尖選手競爭。」產出應該是卡斯帕羅夫或卡爾森。我只看到了相似性apis，但我不明白如何使用它們呢？這不是word2vec如何使用？

0熱度

1回答

Spacy用於創建矢量表示的是什麼？

什麼是Spacy建立矢量表示的方法？我在自己的語料庫上執行了NLP，然後使用相似性（餘弦相似度）繪製出「相似」的文檔。然而，我不確定什麼方法空間使用創建向量表示。據我所知，我認爲它可能是word2vec skip-gram，帶有負面取樣，但是，我想確定！

0熱度

1回答

預測中間詞word2vec

我有官方github倉庫中的predict_output_word方法。它只採用用skip-gram訓練過的wod2vec模型，並嘗試通過將所有輸入詞的索引的向量相加來預測中間詞，並且通過輸入詞索引的np_sum的長度來分割該中間詞。然後，考慮輸出並採用softmax獲得預測詞的概率，然後將所有這些概率相加得到最可能的單詞。有沒有更好的方法來處理這個問題，以獲得更好的單詞，因爲這給較短的句子帶來了

0熱度

1回答

word2vec vocab vs char

我使用word2vec來表示我的單詞作爲向量。 text = np.loadtxt("file.txt", dtype=str, delimiter=" ") word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4) print(len(word2vec.wv.vocab)) 文本是單詞（字符串）的列