word2vec

    0熱度

    1回答

    我有一個名稱列表與我和iam試圖從任何給定的名稱列表中查找最相似的5個名稱作爲查詢。 我想過應用word2vec或者使用nltk中的Text.similar()。但我不確定這些是否也適用於名稱。 任何相似性度量都適用於我。 有什麼建議嗎? 這不是任何項目,但只是我想學習新的東西。

    0熱度

    1回答

    我想用PySpark生成單詞向量。使用gensim我能看到的話,最近的話如下: sentences = open(os.getcwd() + "/tweets.txt").read().splitlines() w2v_input=[] for i in sentences: tokenised=i.split() w2v_input.append(tokenised)

    0熱度

    1回答

    我的目標是(1)從文件加載預先訓練的字嵌入矩陣作爲初始值; (2)微調嵌入的單詞而不是固定它; (3)每次我恢復模型時,加載微調詞嵌入而不是預先訓練的嵌入。 我曾嘗試某事像: class model(): def __init__(self): # ... def _add_word_embed(self): W = tf.get_variable('W'

    1熱度

    1回答

    我有一個訓練有素的Word2vec模型,使用Python的Gensim庫。我有一個標記化列表如下。該翻譯大小是34,但我在這裏只給數出34: b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn', 'affili', 'commiss', 'fifti', 'year', 'ago

    0熱度

    1回答

    這可能是我即將問到的天真問題。我有一個標記化的語料庫,我已經訓練了Gensim的Word2vec模型。代碼如下 site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") site.download() site.parse() def

    0熱度

    1回答

    您好我有存在這樣 BBC文件夾中的每個子文件夾包含BBC文件夾中的文件文本文件 此代碼可以幫助訪問該文件夾內的文件 class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for fname in os.listdir(self.d

    0熱度

    2回答

    我一直在嘗試瞭解skip-gram學習算法的過程。這個小細節讓我感到困惑。 在下面的圖表(它在許多文章和博客中用於解釋skip-gram)中,多個輸出是什麼意思?我的意思是,輸入字是相同的,輸出矩陣是相同的。然後當你計算輸出向量時,我相信它是出現在輸入詞旁邊的所有單詞的概率集合,它應該始終是相同的。 skipgram model 希望有人能幫助我解決這個〜

    0熱度

    1回答

    我想了解更多關於代碼函數的信息,我可以通過嵌入向量來實現這個詞。我知道,通過餘弦相似性,我可以得到最相似的單詞。但是我需要再做一個層次的推理,得到如下關係: X1與X2的關係就像X3與X4的關係。 作爲例子我可以說公主對王子的關係就像女人對男人。我有X1到X3,我的問題是如何有效地找出X4的可能性。我嘗試了餘弦矢量的絕對差異,但它不工作。

    2熱度

    1回答

    我一直在努力理解在gensim.models.Word2Vec 使用size參數從Gensim文檔,size是向量的維數。現在,據我所知,word2vec爲每個單詞創建了與句子中其他單詞接近的概率向量。所以,假設我的vocab大小是30,那麼它是如何創建一個尺寸大於30的矢量的?任何人都可以請我介紹一下Word2Vec大小的最佳值嗎? 謝謝。

    0熱度

    1回答

    我想將谷歌的預訓練矢量GoogleNews-vectors-negative300.bin.gz'Google-word2vec加載到spark中。 我將bin文件轉換爲txt,並創建了一個更小的塊來測試我稱之爲「vectors.txt」的塊。我試圖加載它,如下所示: val sparkSession = SparkSession.builder .master("local[*]")