word2vec

0熱度

1回答

我想使用w2v製作的嵌入，以獲得最有可能的替代詞GIVEN上下文（周圍詞），而不是提供單個詞。例：一句=「我希望去公園，明天放學後」如果我想找到類似「公園」，通常我只會從Gensim模型利用相似功能的候選人 model.most_similar('park') 並獲得語義上相似的單詞。然而，這可能會給我類似的動詞「公園」，而不是我後面的名詞「公園」。有沒有什麼方法可以查詢模型並將其作爲

1熱度

1回答

Word中的線性激活函數向量

在word2vec paper中，它們使用線性激活函數。我的理由可能是他們提供了足夠的訓練數據來學習單詞嵌入，這樣非線性激活函數就沒有必要了，我正確嗎？此外，如果我們在隱藏層中使用非線性激活函數，那麼我認爲結果應該更好。那麼爲什麼谷歌使用線性激活功能的情況下，單詞向量？

2熱度

1回答

如何在gensim中使用TaggedDocument？

我有兩個目錄，我想讀他們的文本文件和標籤，但我不知道如何通過TaggedDocument做到這一點，我認爲它會作爲TaggedDocument（[字符串]，[標籤]），但這doesn顯然工作。這是我的代碼： from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as

0熱度

2回答

word2vec模型由charachters而不是單詞構成

我試圖用Gensim在Persian語言中創建一個word2vec模型，它具有「space」作爲字符分隔符，我使用python 3.5。我遇到的問題是我給了一個文本文件作爲輸入，它返回一個只包含每個字符而不是單詞的模型。我也給其推薦的輸入作爲單詞的列表： Python Gensim word2vec vocabulary key 它不工作對我來說，我認爲它不考慮的話的序列中的句子，因此不會是正確的

0熱度

1回答

word2vec如何處理句子結尾

在訓練時，word2vec會如何處理句子末尾的單詞。它將使用另一句話開頭的確切單詞作爲最後一句末尾的中心單詞的上下文單詞。

1熱度

1回答

分層輸出層中的單元數Softmax

在word2vec中，有3層：輸入層，隱藏層和輸出層。如果我們使用傳統的softmax方法，對於大小爲V的語料庫，輸出層的單元數也將是V（單熱矢量輸入）。如果我們使用Hierarchical Softmax，文章說只有V-1節點（在Huffman二叉樹中）。這是否意味着在這種情況下輸出層只有V-1單元？這裏是我閱讀參考： https://arxiv.org/pdf/1411.2738.

1熱度

1回答

Gensim Doc2Vec爲模型生成巨大的文件

我想從gensim包運行doc2vec庫。我的問題是，當我在訓練和保存模型的模型文件是相當大（2.5 GB），我嘗試使用這一行： model.estimate_memory() 但它並沒有改變任何東西。我也試圖改變max_vocab_size來減少空間。但沒有運氣。有人可以幫我解決這個問題嗎？

0熱度

1回答

優化類似句子的搜索，Word2Vec

我正在嘗試在一組句子中找到所有相似的句子，並且我在想如何優化它。我使用的是Word2Vec模型，所以爲了找到類似的句子，我把第一句和第二句的所有矢量相加，然後做兩者的餘弦，如果結果高於0.9，我將它添加到類似句子的列表。現在的問題是我將所有的句子與其他句子進行比較，這意味着一個O（n^2）的複雜性，如果我有一大堆句子，那就不太好。所以我的問題：是否有任何方法來預處理句子集合以減少比較次數（並

3熱度

1回答

爲什麼gensim的Word2Vec不能識別'compute_loss'關鍵字？

根據gensim.models.Word2VecAPI reference，「compute_loss」是一個有效的關鍵字。但是，我收到一個錯誤，說這是一個unexpected keyword。 UPDATE：在GitHub上does have的 'compute_loss' 關鍵字，但我的本地庫中的Word2Vec類沒有。我看到gensim文檔和庫彼此偏離。我發現-conda reposi

0熱度

1回答

獲得距離矩陣，並設有從word2vec模型

我已生成使用gensim一個巨大的語料庫word2vec模型矩陣，我需要使用k以羣集詞彙均值聚類用於我需要：餘弦距離矩陣（到詞，所以矩陣的大小的number_of_words X number_of_words）設有矩陣（字特徵，所以矩陣的大小是number_of_words X number_of_features（200））爲特徵矩陣我試圖給我們ex = model.wv，我得到的對象類