讓我首先說我已經閱讀了很多有關交叉驗證的文章,看起來有很多困惑。我的理解僅僅是這樣的:使用插入符號包應用k-fold交叉驗證模型
- 進行k倍交叉驗證,即10倍,以瞭解10倍的平均誤差。
- 如果可以接受,則在整個數據集上訓練模型。
我正在嘗試使用R中的rpart
構建決策樹並利用caret
包。以下是我正在使用的代碼。
# load libraries
library(caret)
library(rpart)
# define training control
train_control<- trainControl(method="cv", number=10)
# train the model
model<- train(resp~., data=mydat, trControl=train_control, method="rpart")
# make predictions
predictions<- predict(model,mydat)
# append predictions
mydat<- cbind(mydat,predictions)
# summarize results
confusionMatrix<- confusionMatrix(mydat$predictions,mydat$resp)
我有一個關於脫字符串應用程序的問題。我已閱讀A Short Introduction to the caret Package列車部分,它在重新採樣過程中指出「最佳參數集」已確定。
在我的例子中,我是否正確地編碼了它?我是否需要在我的代碼中定義rpart
參數或者我的代碼是否足夠?