2017-10-15 64 views
-3

問題是:如何將數據分割爲R中的訓練和驗證?

使用set.seed(4650)加載數據並將其分爲75%的培訓和25%的驗證數據。

這是我有:

setwd("C:/Users/Downloads") 
cat = read.csv("cat.csv") 
set.seed(4650) 
train = sample(c(TRUE, TRUE, TRUE, FALSE), nrow(cat), rep = TRUE) 
validation = (!train) 

,我需要提供訓練數據的彙總。

summary(train) 

這給了我

Mode  FALSE TRUE 
logical 830  2463 

難道我分裂以正確的方式將數據?

非常感謝。

回答

2

這是數據拆分在Max Kuhn的book上的插入程序包中完成的方式。

library(caret) 
set.seed(4650) 
trainIndex <- createDataPartition(iris$Species, 
            p = .75, 
            list = FALSE, 
            times = 1) 

irisTrain <- iris[ trainIndex,] 
irisTest <- iris[-trainIndex,] 
0

以下是您可以做的事情。

#Example Data 
df <- iris 

n_train <- round(nrow(iris) * 0.75) 

train <- sample(1:nrow(iris), n_train, replace = FALSE) 
test <- (1:nrow(iris))[-train] 

train_df <- df[train, ] 
test_df <- df[test, ] # same as df[-train, ] 

summary(train_df) 
相關問題