doc2vec

    0熱度

    1回答

    在OS X上的Jupyter筆記本中訓練doc2vec模型時,出現以下錯誤。錯誤對於當前數據集是可重現的(儘管它發生的特定線程發生更改) ,儘管我已經成功地訓練了其他數據集上的模型。 Exception in thread Thread-82: Traceback (most recent call last): File "/Users/kevinyang/anaconda/lib/pyth

    0熱度

    1回答

    我使用列車(..)訓練了一個doc2vec模型,默認設置。這工作,但現在我想知道如何infer_vector結合跨輸入單詞,它只是個別單詞向量的平均值? model.random.seed(0) model.infer_vector(['cat', 'hat']) model.random.seed(0) model.infer_vector(['cat']) model.infer_ve

    0熱度

    1回答

    我試圖使用gensim(ver 1.0.1)doc2vec來獲得文檔的餘弦相似度。這應該是相對簡單的,但我有問題檢索文檔的矢量,所以我可以做餘弦相似度。當我嘗試通過培訓中的標籤檢索文檔時,出現重大錯誤。 例如, print(model.docvecs['4_99.txt']) 會告訴我,有作爲4_99.txt沒有這樣的關鍵。 但是,如果我打印print(model.docvecs.doctags)

    0熱度

    1回答

    我正在使用python Gensim來訓練doc2vec。是否有可能允許此代碼在AWS(s3)上分發。 預先感謝您提前

    1熱度

    1回答

    景氣預測效果很好,作爲例子顯示: https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb http://linanqiu.github.io/2015/10/07/word2vec-sentiment/ 我不知道是什麼模式的載體使之成爲可能。我認爲這應該是相似的向量使得某種

    0熱度

    1回答

    我在gensim中使用Doc2Vec.docvecs.similarity()計算了文檔的相似度。現在,如果gensim使用餘弦的絕對值作爲相似度度量,或者如果不使用餘弦度量的話,其中大約一半爲負值,那麼我希望餘弦相似度位於[0.0,1.0]的範圍內。 但是,我所看到的是一些相似性是否定的,但它們非常罕見 - 小於我在30000套文檔中兩兩相似之處的1%。 爲什麼幾乎所有的相似性都是正面的?

    0熱度

    1回答

    我想知道爲什麼用wiki(韓語)預訓練的'fasttext模型'似乎不能很好地工作! :( 模型= fasttext.load_model( 「./ fasttext/wiki.ko.bin 」) model.cosine_similarity(「 테스트테스트이건테스트문장」, 「지금아무관계없는글정말로정말로」) (英文) model.cosine_similarity( 「測試的測試,這是測

    4熱度

    1回答

    我有多個包含多個句子的文檔。我想通過使用sklearn來使用doc2vec聚類(例如,k-均值)句子向量。 因此,這個想法是,類似的句子被分組在一起成幾個集羣。但是,我不清楚是否必須單獨訓練每個單獨的文檔,然後對句子向量使用聚類算法。或者,如果我可以從doc2vec推斷句子矢量,而不需要訓練每個新句子。 現在這是我的代碼片段: sentenceLabeled = [] for sentenceI

    1熱度

    1回答

    我使用Doc2Vec標籤作爲我的文檔的唯一標識符,每個文檔都有不同的標籤並且沒有語義含義。我使用標籤來查找特定的文檔,以便我可以計算它們之間的相似性。 標籤是否會影響我模型的結果? 在這tutorial他們談論參數train_lbls=false,這個設置爲false,沒有學習標籤(標籤)的表示。 該教程有些過時,我猜這個參數不再存在,Doc2Vec如何處理標籤?

    0熱度

    1回答

    當我從pkl文件加載doc2vec模型時,出現此錯誤。 --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-45-5ed9dc71f3a6> in <mod