2016-03-21 51 views
1

我有200名患者被分配到2:1比例的訓練和驗證集。我使用插入符號與GLMNET訓練分類,允許預測二進制表型:插入 - 預測訓練集的表型標籤?

splitSample <- createDataPartition(phenotype, p = 0.66, list = FALSE) 
training_expression <- expression[splitSample,] 
training_phenotype <- phenotype[splitSample] 
validation_expression <- expression[-splitSample,] 
validation_phenotype <- phenotype[-splitSample] 

eGrid <- expand.grid(.alpha=seq(0,1,by=0.1),.lambda=seq(0,1,by=0.01)) 
Control <- trainControl(number=10, repeats=1, verboseIter=FALSE, classProbs=TRUE, summaryFunction=twoClassSummary, method="cv") 
netFit <- train(x =training_expression, y = training_phenotype,method = "glmnet", metric = "ROC", tuneGrid=eGrid,trControl = Control) 
netFitPerf <- getTrainPerf(netFit) 

predict_validation <- predict(netFit, newdata = validation_expression) 
confusionMatrix(predict_validation,validation_phenotype) 

「predict_validation」包含在驗證組每個患者的預測表型標籤 - 是否有任何有效的方法,也取得「預測「表型標記,即對於所有可用患者最終具有預測的表型標記(這對於進一步執行統計分析是重要的,例如將來自所有患者的預測表型標記與其他參數進行比較(例如,其與年齡的相關性或生存等)?任何想法?

Thank's for your help!

回答

1

使用支持從訓練集預測將是重要的;只是重新預測它們會導致過度裝配值。

如果使用選項trainControl(savePredictions = "final"),則train對象將具有一個名爲pred的元素,並帶有保留預測。

最大

+0

謝謝。那正是我期待的! – user86533

相關問題