將數據集拆分爲一半，隨機選取所選變量的每個級別的一半

我知道如何將數據集完全隨機地分成一半沒有問題，但是雖然我理解如何去實現我想要做的事，但「邏輯上」這裏似乎在拋棄我。將數據集拆分爲一半，隨機選取所選變量的每個級別的一半

所以我有一個數據集，其中包含120個級別的分類變量Title。每個級別有50個觀測值。我想將數據集分成兩半，其中半集A和半集B分別得到每個級別的50個觀測值中的25個觀測值。（這是EFA和CFA）

我認爲這將涉及一個循環通過120級和sample(nrow(subset(dataset,title=index), 25)循環，但我有點失去了這一點。我想到的幾乎沒有什麼潛在的解決方案是隨機選擇一個半值A的25，但帶有替換，所以當我再次運行半值B時，它有一些重疊。

示例數據：

set.seed(1) 
dataset = data.frame(id = rep(1:120, 50), v = rnorm(120*50))

感謝一如既往，大家好。

來源

2016-08-26 D. K.

雖然你的描述是好的，這是最好的也可以用代碼做一個可重現的例子，比如'set.seed（1）; DF = data.frame（id = rep（1：120,50），v = rnorm（120 * 50）） – Frank

我會group_by由標題和數據，然後在每個sample得到隨機排序，並用它來split的data.frame

#some data 
df <- data.frame(title = letters[1:5], col = rnorm(30)) 

library(dplyr) 
df2 <- df %>% group_by(title) %>% mutate(group = sample(n())/n() > 0.5) 
split(df2, df2$group)

來源

2016-08-26 18:35:28

考慮使用插入符包。下面的代碼使用他們的指示：

library(caret) 
set.seed(1); DF = data.frame(id = rep(1:120, 50), v = rnorm(120*50)) 
trainIndex <- createDataPartition(DF$id, p = .5, 
            list = FALSE, 
            times = 1) 

DFTrain <- DF[ trainIndex,] 
DFTest <- DF[-trainIndex,] 
table(DFTrain$id)

更多與插入符號包數據分割： Data Splitting

來源

2016-08-26 18:42:34

這是一個經典的拆分申請，結合問題。使用虹膜數據：

x <- do.call(rbind,lapply(split(iris,iris$Species), function(x) x[sample(round(nrow(x)/2)),])) 
summary(x) 
    Sepal.Length Sepal.Width  Petal.Length Petal.Width 
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.550 1st Qu.:0.300 
Median :5.800 Median :3.000 Median :4.500 Median :1.400 
Mean :5.872 Mean :3.061 Mean :3.804 Mean :1.212 
3rd Qu.:6.450 3rd Qu.:3.350 3rd Qu.:5.100 3rd Qu.:1.800 
Max. :7.700 Max. :4.400 Max. :6.900 Max. :2.500 
     Species 
setosa :25 
versicolor:25 
virginica :25

，或者也可以通過在分裂可變採樣每個級別的行選擇在數據幀行：

y <- iris[unlist(lapply(levels(iris$Species), function(x) sample(which(iris$Species==x),round(sum(iris$Species==x)/2)))),] 
summary(y) 
    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species 
Min. :4.300 Min. :2.00 Min. :1.000 Min. :0.100 setosa :25 
1st Qu.:5.100 1st Qu.:2.70 1st Qu.:1.500 1st Qu.:0.350 versicolor:25 
Median :5.700 Median :3.00 Median :4.200 Median :1.300 virginica :25 
Mean :5.784 Mean :3.02 Mean :3.725 Mean :1.204     
3rd Qu.:6.400 3rd Qu.:3.30 3rd Qu.:5.250 3rd Qu.:1.800     
Max. :7.900 Max. :4.40 Max. :6.600 Max. :2.500

來源

2016-08-26 18:47:18 James

將數據集拆分爲一半，隨機選取所選變量的每個級別的一半

回答

相關問題