word2vec

0熱度

1回答

我有一個名稱列表與我和iam試圖從任何給定的名稱列表中查找最相似的5個名稱作爲查詢。我想過應用word2vec或者使用nltk中的Text.similar（）。但我不確定這些是否也適用於名稱。任何相似性度量都適用於我。有什麼建議嗎？這不是任何項目，但只是我想學習新的東西。

0熱度

1回答

如何從pyspark word2vec模型獲取單詞列表？

我想用PySpark生成單詞向量。使用gensim我能看到的話，最近的話如下： sentences = open(os.getcwd() + "/tweets.txt").read().splitlines() w2v_input=[] for i in sentences: tokenised=i.split() w2v_input.append(tokenised)

0熱度

1回答

Tensorflow：在訓練期間預先訓練的嵌入初始化問題

我的目標是（1）從文件加載預先訓練的字嵌入矩陣作爲初始值; （2）微調嵌入的單詞而不是固定它; （3）每次我恢復模型時，加載微調詞嵌入而不是預先訓練的嵌入。我曾嘗試某事像： class model(): def __init__(self): # ... def _add_word_embed(self): W = tf.get_variable('W'

1熱度

1回答

Gensim：KeyError：「單詞不在詞彙表中」

我有一個訓練有素的Word2vec模型，使用Python的Gensim庫。我有一個標記化列表如下。該翻譯大小是34，但我在這裏只給數出34： b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn', 'affili', 'commiss', 'fifti', 'year', 'ago

0熱度

1回答

Python：基於word2vec對類似單詞進行聚類

這可能是我即將問到的天真問題。我有一個標記化的語料庫，我已經訓練了Gensim的Word2vec模型。代碼如下 site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") site.download() site.parse() def

0熱度

1回答

讀取文件

您好我有存在這樣 BBC文件夾中的每個子文件夾包含BBC文件夾中的文件文本文件此代碼可以幫助訪問該文件夾內的文件 class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for fname in os.listdir(self.d

0熱度

2回答

skip-gram中的多個輸出是什麼意思？

我一直在嘗試瞭解skip-gram學習算法的過程。這個小細節讓我感到困惑。在下面的圖表（它在許多文章和博客中用於解釋skip-gram）中，多個輸出是什麼意思？我的意思是，輸入字是相同的，輸出矩陣是相同的。然後當你計算輸出向量時，我相信它是出現在輸入詞旁邊的所有單詞的概率集合，它應該始終是相同的。 skipgram model 希望有人能幫助我解決這個〜

0熱度

1回答

Word嵌入關係

我想了解更多關於代碼函數的信息，我可以通過嵌入向量來實現這個詞。我知道，通過餘弦相似性，我可以得到最相似的單詞。但是我需要再做一個層次的推理，得到如下關係： X1與X2的關係就像X3與X4的關係。作爲例子我可以說公主對王子的關係就像女人對男人。我有X1到X3，我的問題是如何有效地找出X4的可能性。我嘗試了餘弦矢量的絕對差異，但它不工作。

2熱度

1回答

的Python：什麼是Gensim Word2vec模型類的「大小」參數

我一直在努力理解在gensim.models.Word2Vec 使用size參數從Gensim文檔，size是向量的維數。現在，據我所知，word2vec爲每個單詞創建了與句子中其他單詞接近的概率向量。所以，假設我的vocab大小是30，那麼它是如何創建一個尺寸大於30的矢量的？任何人都可以請我介紹一下Word2Vec大小的最佳值嗎？謝謝。

0熱度

1回答

在Spark中加載訓練有素的Word2Vec模型

我想將谷歌的預訓練矢量GoogleNews-vectors-negative300.bin.gz'Google-word2vec加載到spark中。我將bin文件轉換爲txt，並創建了一個更小的塊來測試我稱之爲「vectors.txt」的塊。我試圖加載它，如下所示： val sparkSession = SparkSession.builder .master("local[*]")