word2vec

    0熱度

    1回答

    我想使用w2v製作的嵌入,以獲得最有可能的替代詞GIVEN上下文(周圍詞),而不是提供單個詞。 例: 一句=「我希望去公園,明天放學後」 如果我想找到類似「公園」,通常我只會從Gensim模型利用相似功能的候選人 model.most_similar('park') 並獲得語義上相似的單詞。然而,這可能會給我類似的動詞「公園」,而不是我後面的名詞「公園」。 有沒有什麼方法可以查詢模型並將其作爲

    1熱度

    1回答

    在word2vec paper中,它們使用線性激活函數。我的理由可能是他們提供了足夠的訓練數據來學習單詞嵌入,這樣非線性激活函數就沒有必要了,我正確嗎? 此外,如果我們在隱藏層中使用非線性激活函數,那麼我認爲結果應該更好。那麼爲什麼谷歌使用線性激活功能的情況下,單詞向量?

    2熱度

    1回答

    我有兩個目錄,我想讀他們的文本文件和標籤,但我不知道如何通過TaggedDocument做到這一點,我認爲它會作爲TaggedDocument([字符串],[標籤]),但這doesn顯然工作。這是我的代碼: from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as

    0熱度

    2回答

    我試圖用Gensim在Persian語言中創建一個word2vec模型,它具有「space」作爲字符分隔符,我使用python 3.5。我遇到的問題是我給了一個文本文件作爲輸入,它返回一個只包含每個字符而不是單詞的模型。我也給其推薦的輸入作爲單詞的列表: Python Gensim word2vec vocabulary key 它不工作對我來說,我認爲它不考慮的話的序列中的句子,因此不會是正確的

    0熱度

    1回答

    在訓練時,word2vec會如何處理句子末尾的單詞。它將使用另一句話開頭的確切單詞作爲最後一句末尾的中心單詞 的上下文單詞。

    1熱度

    1回答

    在word2vec中,有3層:輸入層,隱藏層和輸出層。 如果我們使用傳統的softmax方法, 對於大小爲V的語料庫,輸出層的單元數也將是V(單熱矢量輸入)。 如果我們使用Hierarchical Softmax, 文章說只有V-1節點(在Huffman二叉樹中)。 這是否意味着在這種情況下輸出層只有V-1單元? 這裏是我閱讀參考: https://arxiv.org/pdf/1411.2738.

    1熱度

    1回答

    我想從gensim包運行doc2vec庫。我的問題是,當我在訓練和保存模型的模型文件是相當大(2.5 GB),我嘗試使用這一行: model.estimate_memory() 但它並沒有改變任何東西。我也試圖改變max_vocab_size來減少空間。但沒有運氣。有人可以幫我解決這個問題嗎?

    0熱度

    1回答

    我正在嘗試在一組句子中找到所有相似的句子,並且我在想如何優化它。 我使用的是Word2Vec模型,所以爲了找到類似的句子,我把第一句和第二句的所有矢量相加,然後做兩者的餘弦,如果結果高於0.9,我將它添加到類似句子的列表。 現在的問題是我將所有的句子與其他句子進行比較,這意味着一個O(n^2)的複雜性,如果我有一大堆句子,那就不太好。 所以我的問題:是否有任何方法來預處理句子集合以減少比較次數(並

    3熱度

    1回答

    根據gensim.models.Word2VecAPI reference,「compute_loss」是一個有效的關鍵字。但是,我收到一個錯誤,說這是一個unexpected keyword。 UPDATE: 在GitHub上does have的 'compute_loss' 關鍵字,但我的本地庫中的Word2Vec類沒有。 我看到gensim文檔和庫彼此偏離。 我發現-conda reposi

    0熱度

    1回答

    我已生成使用gensim一個巨大的語料庫word2vec模型矩陣,我需要使用k以羣集詞彙均值聚類用於我需要: 餘弦距離矩陣(到詞,所以矩陣的大小的number_of_words X number_of_words) 設有矩陣(字特徵,所以矩陣的大小是number_of_words X number_of_features(200)) 爲特徵矩陣我試圖給我們ex = model.wv,我得到的對象類