2016-07-01 47 views
1

我目前在深學習的業餘和在本網站 https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors是什麼字向量維

對於任何CBOW或skipgram模型唸叨word2vector,我可以看到單詞矢量的尺寸爲300詞彙大小爲15000.我在前面的文章中讀到的是,我們可以對向量中的單詞進行硬編碼。所以我猜這個單詞向量維度應該等於詞彙量的大小,或者用不同的方式來表達這個問題,這個詞的維度是什麼,以及如何對它進行可視化。你如何看待這個維度?

+0

你能解釋一下這句話:「我們一個熱門詞向量」嗎? – sel

+0

編輯我的問題 – Nipun

回答

0

其實單詞向量維度不反映詞彙量大小。 Word2Vec正在做什麼是將單詞映射到它們在向量空間中的表示形式,並且您可以創建任何所需維度的空間::每個單詞由此空間中的一個點表示,而單詞向量維度是此單詞的座標這個空間。 也往往出現在相同的上下文中的單詞在這個空間中彼此相鄰。

希望這有助於

+0

https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors請看看這個鏈接,讓我知道什麼「將最小單詞數量設置爲40給了我們總共16,492字的單詞,每個單詞有300個特徵」意味着具有300個特徵。這些詞的特徵是什麼 – Nipun

3

「字向量維」是你與培訓文檔訓練向量的維數。從技術上講,您可以選擇任何尺寸,例如10,100,300,甚至1000.行業規範是300-500,因爲我們已經嘗試了不同的尺寸(300,400,500,... 1000等),但沒有注意到300-400之後顯着的性能提升。 (這也取決於你的訓練數據。)聽起來,更多的維度意味着更重的計算。但是,如果我們將維度設置得太低,那麼沒有足夠的向量空間來捕獲整個培訓文檔所包含的信息。

如何可視化它?

你不能容易地想象300維矢量,並且可能想象300-d矢量對你來說不是太有用。我們可以做的是將這些向量投影到二維空間,這是我們最熟悉的空間,我們可以很容易地理解。

您上次的說法所以我猜矢量維度應該等於詞彙大小是錯誤! 單詞本的大小是10億!單詞向量的維數(大多數是300-500,你不想訓練10億維向量,是嗎?)是你預先決定的向量來訓練數據的大小。這段視頻將幫助你理解重要的單詞向量概念:AI with the Best