sampling

    1熱度

    1回答

    最近遇到了關於如何找到給定數字流的第x百分位數的問題。如果數據流相對較小(可以存儲到內存中,排序並且可以找到第x個值),我對此有基本的瞭解,但是我想知道如果數字流相當公平,百分比是如何近似的數量衆多,數量未知。

    2熱度

    1回答

    假設我們有一個包含總體的原始數據集,並且我們有一個合併數據集,該數據集包含與另一個數據集合並後的總體(因此較少的觀察值)。 library(tidyverse) set.seed(0) population_data <- data.frame(ID = c(1:100), industry = sample(1:10, 100, replace = T),

    1熱度

    1回答

    我有兩個不同大小的向量。說 x <- rnorm(50, 2, 0.8) y <- rnorm(35, 4, 0.5) 我想從y創建一個包含大小75觀察樣本從x大小100和大小25的樣本的新載體z。 我想用sample()函數的基礎包。

    1熱度

    2回答

    一個給定概率分佈假設的概率分佈如下: x座標表示小時,y座標裝置,用於每個小時的概率。 問題是如何生成一組1000個隨機數據,遵循概率分佈?

    0熱度

    1回答

    我聽說與word2vec一起使用的術語「負採樣」和「子採樣」很多。 在我試圖搞砸word2vec之前,我試圖回到引用單詞嵌入的論文,並從頭開始。本文線索已經落在這裏我: https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/Uploaded

    -1熱度

    2回答

    如何計算位數在R和創建直方圖與正態分佈畝= 16和sigma = 4

    -1熱度

    1回答

    我對R相當新鮮。現在,當樣本大小基於組更改時,我停止了分層抽樣。 的數據看起來像這樣: 和樣品大小而變化根據不同的基團或階層: 我用分層抽樣,但不能圖取出樣本量。 Result <- stratified(Population, c("Loc", "Format"), Population$SampleSize), replace = FALSE, keep.row

    2熱度

    1回答

    ,我有以下數據: MTU (CET) Day-ahead Price [EUR/MWh] 0 09.10.2017 00:00 - 09.10.2017 01:00 43.13 1 09.10.2017 01:00 - 09.10.2017 02:00 34.80 2 09.10.2017 02:00 - 09.10.2017 03:00 33.3

    4熱度

    1回答

    我有一個2d numpy數組Z,我想隨機選擇一個索引Z,其中索引被選擇的機會與該索引處的Z值成正比。 現在,我做了以下內容: yar = list(np.ndenumerate(Z)) x,y = yar[np.random.choice(len(yar), p=Z.ravel()/Z.sum())][0] 哪個做這項工作,但感覺醜陋的(並且是極其緩慢之外)。有沒有更好的辦法?

    0熱度

    1回答

    使用不同的概率行具有這樣的數據幀: ID var 1 NA 2 NA 3 NA 4 NA ... 我需要隨機地分配20個%的行var值是A,和30%的行爲B,和50%的行是C. 有沒有一些有效的方法來解決這個問題?