隨機抽樣基於列組

我有一個簡單的問題，它可以在一個骯髒的方式來解決，但是我正在尋找使用清潔的方式data.table隨機抽樣基於列組

我有以下data.table與n列屬於不平等的羣體。這裏是我的data.table的例子：

dframe <- as.data.frame(matrix(rnorm(60), ncol=30)) 
cletters <- rep(c("A","B","C"), times=c(10,14,6)) 
colnames(dframe) <- cletters 


      A   A   A   A   A   A 
1 -0.7431185 -0.06356047 -0.2247782 -0.15423889 -0.03894069 0.1165187 
2 -1.5891905 -0.44468389 -0.1186977 0.02270782 -0.64950716 -0.6844163 
      A   A   A   A   B   B   B 
1 -1.277307 1.8164195 -0.3957006 -0.6489105 0.3498384 -0.463272 0.8458673 
2 -1.644389 0.6360258 0.5612634 0.3559574 1.9658743 1.858222 -1.4502839 
      B   B   B   B   B   B   B 
1 0.3167216 -0.2919079 0.5146733 0.6628149 0.5481958 -0.01721261 -0.5986918 
2 -0.8104386 1.2335948 -0.6837159 0.4735597 -0.4686109 0.02647807 0.6389771 
      B   B   B   B   C   C 
1 -1.2980799 0.3834073 -0.04559749 0.8715914 1.1619585 -1.26236232 
2 -0.3551722 -0.6587208 0.44822253 -0.1943887 -0.4958392 0.09581703 
      C   C   C   C 
1 -0.1387091 -0.4638417 -2.3897681 0.6853864 
2 0.1680119 -0.5990310 0.9779425 1.0819789

我想要做的是採取列（一sepcific大小）的隨機子集，保持相同的每列組（如果選擇的樣本大小大於屬於一個組的列數，取這個組的所有列）。

我試圖在這個問題中提到的方法的更新版本：

sample rows of subgroups from dataframe with dplyr

，但我不能夠將列名映射到by說法。

有人可以幫助我嗎？

來源

2017-06-14 ifreak

不清楚給我。你想要一個子集，但每個組的列數保持不變？你的意思是你只是想隨機排列這些列嗎？請澄清 –

@docendodiscimus如果隨機樣本大小大於每個組的實際列數，則列數應該保持不變。例如，在示例數據框中，假設樣本大小爲7，結果data.table應包括屬於A的7個隨機列，屬於B的7個隨機列和屬於C的所有列（因爲C只有6列屬於它，這是比選擇的樣本大小） – ifreak

這裏的另一種方法，IIUC：

idx <- split(seq_along(dframe), names(dframe)) 
keep <- unlist(Map(sample, idx, pmin(7, lengths(idx)))) 

dframe[, keep]

說明：

第一步根據列名拆分列索引：

idx 
# $A 
# [1] 1 2 3 4 5 6 7 8 9 10 
# 
# $B 
# [1] 11 12 13 14 15 16 17 18 19 20 21 22 23 24 
# 
# $C 
# [1] 25 26 27 28 29 30

在下一步驟中，我們使用

pmin(7, lengths(idx)) 
#[1] 7 7 6

，以確定各組中的樣本大小，並使用在Mapidx將此到每個列表元素（組）。然後，我們將結果取消列表以獲得列索引的單個向量。

來源

2017-06-14 12:09:47

似乎工作得很好，你能向我解釋一下代碼嗎？因爲有功能我從來沒有用過。 – ifreak

不知道，如果你想與dplyr一個解決方案，但這裏有一個只有lapply：

dframe <- as.data.frame(matrix(rnorm(60), ncol=30)) 
cletters <- rep(c("A","B","C"), times=c(10,14,6)) 
colnames(dframe) <- cletters 

# Number of columns to sample per group 
nc <- 8 


res <- do.call(cbind, 
     lapply(unique(colnames(dframe)), 
       function(x){ 
         dframe[,if(sum(colnames(dframe) == x) <= nc) which(colnames(dframe) == x) else sample(which(colnames(dframe) == x),nc,replace = F)] 
         } 
))

它可能看起來很複雜，但它真的只是需要所有列每組如果有小於nc，和樣品隨機nc列，如果有多於nc列。

，並恢復原來的列名方案，GSUB的伎倆：

colnames(res) <- gsub('.[[:digit:]]','',colnames(res))

來源

2017-06-14 11:45:23 Val

這似乎工作，但res中的一些姓氏是隨機的，並與原始列名稱無關 – ifreak

你是什麼意思？我得到了染色體A - B - C，並附有一個整數，指出樣品編號（第一個是A，第二個是A.1，等等）。藉助'gsub'功能，您可以回到原來的A-B-C。 – Val

我的專欄名稱不僅包含A，B，C ......，還可以包含更多字符。我收到了這樣的列名： 'c（0.2818491673，0.6562765283,0,0,0,5.318117652,0.66930066962，' – ifreak

隨機抽樣基於列組

回答

相關問題