word2vec

    0熱度

    1回答

    我有成對的電影女巫包含2783個功能。 的矢量定義爲:如果所述特徵是在電影它的1否則其爲0。 示例: movie 1 = [0,0,1,0,1,0,1 ...] & movie 2 = [1,0,1,1,1,0,1 ...] 每對具有用於標籤1或0。 movie1,movie2=0 movie1,movie4=1 movie2,movie150=0 輸入是類似到SGNS(Skip gr

    0熱度

    1回答

    這可能聽起來像一個天真的問題,但我對此很新。假設我使用Google預先訓練好的word2vector模型(https://github.com/dav/word2vec)來訓練分類模型。我保存我的分類模型。現在我將分類模型加載到內存中以測試新實例。我是否需要再次加載Google word2vector模型?或者它只用於訓練我的模型?

    0熱度

    1回答

    我試圖用循環神經網絡來預測單詞。 我正在訓練網絡,將獨立預訓練的word2vec字作爲輸入。 我想知道是否可以使用目標詞的word2vec來計算錯誤代價。 它似乎不工作,我從來沒有見過這樣的例子或論文。 是否可以使用word2vec作爲計算錯誤成本的目標值? 如果是這樣,我應該使用什麼樣的成本函數? 如果不是,請以數學方式解釋原因。 我應該如何設置輸入和目標? 現在我使用的架構如下圖所示: inp

    3熱度

    1回答

    這是一個很遠的鏡頭,但我希望有人遇到類似的情況,因爲我正在尋找一些建議,以便如何將一組大型word2vec模型有效地帶入生產環境環境。 我們有一系列維度爲300的訓練好的w2v模型。由於基礎數據 - 帶POS標記詞的龐大語料庫;專業詞彙量高達100萬字 - 這些模型變得相當龐大,我們正在研究如何將這些內容暴露給我們的用戶,而不用花費太高的基礎設施費用。 除了試圖更好地控制詞彙量,顯然,特徵向量的降

    0熱度

    1回答

    我打算使用Scikit Learn的Multi Layer Perceptron Classifier來達到此目的。 輸出是該單詞的性別,該單詞將以單熱編碼表示,如男性爲[1,0,0],女性爲[0,1,0],女性爲[0,0,1]。 現在其中一個輸入是單詞的單詞向量。這些向量中的每一個都有20個維度。 其他功能是它的語音標籤和奇點(0)/多(1)狀態的一部分。 我的問題是如何使用MLPClassif

    1熱度

    1回答

    我正在使用gensim庫通過doc2vec模型在Python中構建NLP聊天應用程序。我有硬編碼的文檔並給出了一組訓練示例,我通過拋出用戶問題來測試模型,然後找到大多數類似的文檔作爲第一步。在這種情況下,我的測試問題是來自培訓示例的文檔的精確副本。 import gensim from gensim import models sentence = models.doc2vec.Labeled

    0熱度

    1回答

    我正在word2vec火花,當它涉及到fit(),只有一個任務在UI觀察圖像: 。 根據配置,num-executors = 1000, executor-cores = 2。 RDD合併到2000個分區。 mapPartitionsWithIndex需要相當長的時間。它可以分發給多個執行者或任務嗎?

    0熱度

    2回答

    我正在開發一個NLP項目,其中列出了所有與讚賞有關的電子郵件。我試圖從電子郵件內容中確定誰被讚賞。這反過來會幫助組織在我們的績效評估計劃中。 除了識別誰被讚賞之外,我還試圖確定一個人完成的工作類型並對其進行評分。我使用開放的NLP(最大熵/邏輯迴歸)對電子郵件進行分類,並使用某種形式的啓發式來識別被讚賞的人。 的人識別的方法如下: 確定是否電子郵件是與升值 獲取的人的名單在「To:」如果那個人是列

    4熱度

    1回答

    我正在解決文本分類問題。我用我自己的model_fn使用Estimator類定義了我的分類器。我想使用Google的預先訓練好的word2vec嵌入作爲初始值,然後針對當前的任務對其進行進一步優化。 我看到這篇文章:Using a pre-trained word embedding (word2vec or Glove) in TensorFlow 它解釋瞭如何在'原始'TensorFlow代碼

    0熱度

    1回答

    我正在Python中使用它的gensim包使用Doc2Vec技術構建NLP聊天應用程序。我已經完成了詞幹化和詞幹化。我想從訓練集以及用戶拋出的問題中刪除停用詞(以測試它是否更好)。 這是我的代碼。 import gensim import nltk from gensim import models from gensim import utils from gensim import c