1
我想用隨機存活森林來預測每位患者的累積危險,並通過選擇具有最小累積危險的治療來預測治療。我覺得我很接近,但我不確定我在randomForestSRC
包中的輸出之一。randomForestSRC - 每位患者的累積危險
我正在使用的數據是乳房癌數據GBSG2
。患者接受激素治療與否。
這裏是我到目前爲止的代碼
#load data
library(TH.data)
data(GBSG2)
#test and train
smp_size <- floor(0.75 * nrow(GBSG2))
set.seed(123)
train_ind <- sample(seq_len(nrow(GBSG2)), size = smp_size)
train <- GBSG2[train_ind, ]
test <- GBSG2[-train_ind, ]
#rsf fit
library(randomForestSRC)
rf.fit <- rfsrc(formula = Surv(time,cens)~., ntree = 100,
data=train)
#rsf predict
rf.pred <- predict(rf.fit, test)
#rsf cumulative hazard
rf.pred$chf
我有點困惑的輸出。我假設對於每個患者,我都會有治療與不治療的累積危險。我不確定爲什麼每個病人都有四個值。
謝謝。我並沒有離開這個。 – Alex