word2vec

0熱度

1回答

我有成對的電影女巫包含2783個功能。的矢量定義爲：如果所述特徵是在電影它的1否則其爲0。示例： movie 1 = [0,0,1,0,1,0,1 ...] & movie 2 = [1,0,1,1,1,0,1 ...] 每對具有用於標籤1或0。 movie1,movie2=0 movie1,movie4=1 movie2,movie150=0 輸入是類似到SGNS（Skip gr

0熱度

1回答

我還需要在模型測試中加載word2vec模型嗎？

這可能聽起來像一個天真的問題，但我對此很新。假設我使用Google預先訓練好的word2vector模型（https://github.com/dav/word2vec）來訓練分類模型。我保存我的分類模型。現在我將分類模型加載到內存中以測試新實例。我是否需要再次加載Google word2vector模型？或者它只用於訓練我的模型？

0熱度

1回答

rnn使用word2vec進行單詞預測

我試圖用循環神經網絡來預測單詞。我正在訓練網絡，將獨立預訓練的word2vec字作爲輸入。我想知道是否可以使用目標詞的word2vec來計算錯誤代價。它似乎不工作，我從來沒有見過這樣的例子或論文。是否可以使用word2vec作爲計算錯誤成本的目標值？如果是這樣，我應該使用什麼樣的成本函數？如果不是，請以數學方式解釋原因。我應該如何設置輸入和目標？現在我使用的架構如下圖所示： inp

3熱度

1回答

將Word2Vec模型有效地導入生產服務

這是一個很遠的鏡頭，但我希望有人遇到類似的情況，因爲我正在尋找一些建議，以便如何將一組大型word2vec模型有效地帶入生產環境環境。我們有一系列維度爲300的訓練好的w2v模型。由於基礎數據 - 帶POS標記詞的龐大語料庫;專業詞彙量高達100萬字 - 這些模型變得相當龐大，我們正在研究如何將這些內容暴露給我們的用戶，而不用花費太高的基礎設施費用。除了試圖更好地控制詞彙量，顯然，特徵向量的降

0熱度

1回答

如何使用word2vec返回的單詞向量作爲功能？

我打算使用Scikit Learn的Multi Layer Perceptron Classifier來達到此目的。輸出是該單詞的性別，該單詞將以單熱編碼表示，如男性爲[1,0,0]，女性爲[0,1,0]，女性爲[0,0,1]。現在其中一個輸入是單詞的單詞向量。這些向量中的每一個都有20個維度。其他功能是它的語音標籤和奇點（0）/多（1）狀態的一部分。我的問題是如何使用MLPClassif

1熱度

1回答

如何提高doc2vec模型中兩個文檔（句子）的餘弦相似度？

我正在使用gensim庫通過doc2vec模型在Python中構建NLP聊天應用程序。我有硬編碼的文檔並給出了一組訓練示例，我通過拋出用戶問題來測試模型，然後找到大多數類似的文檔作爲第一步。在這種情況下，我的測試問題是來自培訓示例的文檔的精確副本。 import gensim from gensim import models sentence = models.doc2vec.Labeled

0熱度

1回答

爲什麼word2vec只以mapPartitionsWithIndex一項任務Word2Vec.scala：323

我正在word2vec火花，當它涉及到fit()，只有一個任務在UI觀察圖像：。根據配置，num-executors = 1000, executor-cores = 2。 RDD合併到2000個分區。 mapPartitionsWithIndex需要相當長的時間。它可以分發給多個執行者或任務嗎？

0熱度

2回答

使用ML/NLP識別電子郵件中引用的人

我正在開發一個NLP項目，其中列出了所有與讚賞有關的電子郵件。我試圖從電子郵件內容中確定誰被讚賞。這反過來會幫助組織在我們的績效評估計劃中。除了識別誰被讚賞之外，我還試圖確定一個人完成的工作類型並對其進行評分。我使用開放的NLP（最大熵/邏輯迴歸）對電子郵件進行分類，並使用某種形式的啓發式來識別被讚賞的人。的人識別的方法如下：確定是否電子郵件是與升值獲取的人的名單在「To：」如果那個人是列

4熱度

1回答

加載預先訓練好的word2vec在Estimator中初始化embedding_lookup model_fn

我正在解決文本分類問題。我用我自己的model_fn使用Estimator類定義了我的分類器。我想使用Google的預先訓練好的word2vec嵌入作爲初始值，然後針對當前的任務對其進行進一步優化。我看到這篇文章：Using a pre-trained word embedding (word2vec or Glove) in TensorFlow 它解釋瞭如何在'原始'TensorFlow代碼

0熱度

1回答

如何從gensim中的文檔中刪除停用詞？

我正在Python中使用它的gensim包使用Doc2Vec技術構建NLP聊天應用程序。我已經完成了詞幹化和詞幹化。我想從訓練集以及用戶拋出的問題中刪除停用詞（以測試它是否更好）。這是我的代碼。 import gensim import nltk from gensim import models from gensim import utils from gensim import c