2017-10-05 68 views
0

我聽說與word2vec一起使用的術語「負採樣」和「子採樣」很多。負抽樣和二次採樣

在我試圖搞砸word2vec之前,我試圖回到引用單詞嵌入的論文,並從頭開始。本文線索已經落在這裏我:

https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(谷歌的,如果你不信任的鏈接「在向量空間字代表處的有效估計」)

,並指出:

enter image description here

(我熟悉所有項目符號減去第一個)

我發現在負取樣和二次採樣中唯一的東西已經包含在有關word2vec和tha這就是我想要避免的。

如果任何人可以解釋這些條款或指出我在正確的方向,這將不勝感激:)。

編輯:下采樣標記它的自我導致了這樣的定義:

「子採樣重採樣過程類似於引導,其中除了所有觀測較少正在與更換繪製(相對於所使用的原始樣本大小教科書引導方法)爲了從現有數據中創建樣本,請考慮「取樣」標籤。「 ---這是一個很好的例子。

回答

1

我終於找到的東西負採樣,其中,如果你學的是計算機科學,都知道「連接點」 a.k.a圖,這將是一個非常有用的鏈接,誰想要一個具體的例子。

https://www.safaribooksonline.com/library/view/mastering-java-for/9781782174271/056ce305-83f2-4efe-993a-b549b7ea3133.xhtml

(或谷歌: 「掌握了科學的數據負採樣的Java」)

對於二次抽樣,我會使用它的NLP,所以這是最相關的:

enter image description here

(取自https://www.safaribooksonline.com/library/view/python-natural-language/9781787121423/f7035ac3-7624-4b80-b464-64ed8a7f252a.xhtml