如果我在R中有一個大的數據集,如何考慮原始數據的分佈情況,如何對數據進行隨機抽樣,特別是在數據偏斜且只有1%屬於次要類別,我想對數據採取偏倚的樣本?從R中的數據集中獲取不成比例的樣本R
12
A
回答
20
sample(x, n, replace = FALSE, prob = NULL)
函數從一個大小爲n
的矢量x
中取樣。此樣品可以是用或無需更換,以及選擇的每個元素到樣品的概率可以是相同的每個元素,或由用戶通知的載體。
如果你想利用相同概率的樣本爲每個元素50例,所有你需要做的就是
n <- 50
smpl <- df[sample(nrow(df), 50),]
但是,如果你想給被選定爲元素的不同可能性,讓我們說,元素性是中號有概率0.25,而那些性是˚F有概率0.75,你SH應該做
n <- 50
prb <- ifelse(sex=="M",0.25,0.75)
smpl <- df[sample(nrow(df), 50, prob = prb),]
相關問題
- 1. 從R中的數據集中取多個樣本
- 2. 在R數據集中找到比例數據集
- 3. 生成數據集R中
- 4. 比較2個數據集中的R
- 5. 比較R中的數據集
- 6. 從R中的數據集取樣一些元素
- 7. 如何在R中的數據集中過採樣實例
- 8. 從數據集R中
- 9. R中的選擇性數據集成
- 10. R - 配對數據中的樣本
- 11. 比較R中的數據
- 12. 比例barplot R中
- 13. 從excel中獲取數據R
- 14. 比例轉換中的R
- 15. R中的數據子集
- 16. 示例函數R不會生成均勻分佈的樣本
- 17. 提取不完整的情況下,從數據集R中
- 18. 獲取R中的數據計數
- 19. 從PCA獲取集羣r
- 20. 從包中讀取R中的數據
- 21. 來自R數據集子集的行的隨機樣本
- 22. 從列中獲取不同的值R
- 23. 如何獲取R中的列數據
- 24. 獲取R中的PCA數據點
- 25. R中的基本集成過程
- 26. 從R中的數據集中抽取大量指定行
- 27. R包中R掛着小數據集
- 28. 從R中的data.frame獲取大型數據集中排名前N的元素
- 29. R中的雙重集成
- 30. 從R中的人口中抽樣固定數量的實例
導入數據,找到你的「水平」的權重,讓'樣品'照顧其餘的。如果你可以縮小問題的範圍(至少是示例數據 - http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example),這將有所幫助。 – 2012-04-22 18:41:07
另請參閱http://stackoverflow.com/questions/2923092/how-do-i-sub-sample-data-by-group-using-ddply – 2012-04-24 16:14:33