doc2vec

    0熱度

    1回答

    我想基於他們喜歡的最後N個文檔來形成用戶的表示。 因此,我打算使用doc2vec來形成每個文檔的這種表示形式,但我只是想弄清楚什麼是將用戶放在同一空間中的一種好方法。 像平均他們消費的最後5個文檔的向量一樣簡單,但想不到這是否有點愚蠢。也許某種空間方式可能是可能的。 然後我想知道 - 我們只是在doc2vec中使用文檔ID相同的方式,只是添加一個用戶ID令牌,並嘗試以這種方式得到一個用戶的表示作爲

    1熱度

    1回答

    應用類似的功能 我試圖讓doc2vec功能在Python 3 工作,我有以下代碼: tekstdata = [[ index, str(row["StatementOfTargetFiguresAndPoliciesForTheUnderrepresentedGender"])] for index, row in data.iterrows()] def prep (x): low

    0熱度

    1回答

    我試圖理解doc2vec,我可以用它來解決我的情況。我想使用TaggedSentences([words],[tags])爲一個或多個標籤標註句子,但不確定如果我的理解是正確的。 所以基本上,我需要這樣的事情發生(或我完全沒譜) 我創建2個TaggedDocuments TaggedDocument(words=["the", "bird", "flew", "over", "the", "coo

    1熱度

    2回答

    我發現成功的權重主題爲增加這似乎是一句比較在我的情況下工作的詞矢量: query1 = vectorize_query("human cat interaction") query2 = vectorize_query("people and cats talk") query3 = vectorize_query("monks predicted frost") query4 = vect

    0熱度

    3回答

    我正在使用doc2vec轉換我的追隨者在向量表示中的前100個推文(稱爲v1 ..... v100)。之後,我使用向量表示來完成K均值聚類。 model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) 我可以看到集羣0被某些值(比如v10,v12,v23,...)所支配。我的問題是這

    0熱度

    1回答

    doc2vec在不同大小的數據集上訓練時如何執行?在原始語料庫中沒有提及數據集的大小,所以我想知道從doc2vec中獲得良好性能所需的最小大小是多少。

    0熱度

    1回答

    只需閱讀gensim頁面上的doc2vec命令即可。 我很好奇命令「intersect_word2vec_format」。 我對這個命令的理解是,它允許我將預訓練的word2vec模型中的矢量值插入到我的doc2vec模型中,然後使用預訓練的word2vec值訓練我的doc2vec模型,而不是從我的文檔語料庫生成單詞矢量值。結果是我得到了一個更準確的doc2vec模型,因爲我使用的pretrain

    0熱度

    2回答

    我已經應用Doc2vec將文檔轉換爲矢量。之後,我使用矢量進行聚類,並找出每個聚類的質心最近/最相似的文檔。現在我需要找到這些文檔中最重要或最重要的術語,以便我能夠弄清楚每個集羣的特徵。 我的問題是有什麼方法可以找出Doc2vec中文檔中最主要或最相近的術語/單詞。我正在使用python的gensim包來實現Doc2vec的實現

    0熱度

    1回答

    我創建了一個尺寸爲100尺寸的doc2vec模型。根據我的理解,這些尺寸是我的模型的特徵。我怎樣才能確定這些尺寸究竟是什麼。

    0熱度

    1回答

    我已閱讀了大量文檔以閱讀有關doc2Vec和word2Vec的內容。我明白,將單詞表示爲一個向量並執行簡單的操作(如向量添加,減法以在單詞之間產生有意義的類比)有多強大。 雖然我仍然無法理解的一件事是如何使用這種技術來理解用戶的情緒。 有人可以詳細說明如何使用這些技術分析用戶情緒? 謝謝 Samir