我聽說與word2vec一起使用的術語「負採樣」和「子採樣」很多。負抽樣和二次採樣
在我試圖搞砸word2vec之前,我試圖回到引用單詞嵌入的論文,並從頭開始。本文線索已經落在這裏我:
https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(谷歌的,如果你不信任的鏈接「在向量空間字代表處的有效估計」)
,並指出:
(我熟悉所有項目符號減去第一個)
我發現在負取樣和二次採樣中唯一的東西已經包含在有關word2vec和tha這就是我想要避免的。
如果任何人可以解釋這些條款或指出我在正確的方向,這將不勝感激:)。
編輯:下采樣標記它的自我導致了這樣的定義:
「子採樣重採樣過程類似於引導,其中除了所有觀測較少正在與更換繪製(相對於所使用的原始樣本大小教科書引導方法)爲了從現有數據中創建樣本,請考慮「取樣」標籤。「 ---這是一個很好的例子。