2017-04-01 26 views
1

我想用隨機存活森林來預測每位患者的累積危險,並通過選擇具有最小累積危險的治療來預測治療。我覺得我很接近,但我不確定我在randomForestSRC包中的輸出之一。randomForestSRC - 每位患者的累積危險

我正在使用的數據是乳房癌數據GBSG2。患者接受激素治療與否。

這裏是我到目前爲止的代碼

#load data 
library(TH.data) 
data(GBSG2) 

#test and train 
smp_size <- floor(0.75 * nrow(GBSG2)) 
set.seed(123) 
train_ind <- sample(seq_len(nrow(GBSG2)), size = smp_size) 
train <- GBSG2[train_ind, ] 
test <- GBSG2[-train_ind, ] 

#rsf fit 
library(randomForestSRC) 
rf.fit <- rfsrc(formula = Surv(time,cens)~., ntree = 100, 
          data=train) 
#rsf predict 
rf.pred <- predict(rf.fit, test) 

#rsf cumulative hazard 
rf.pred$chf 

enter image description here

我有點困惑的輸出。我假設對於每個患者,我都會有治療與不治療的累積危險。我不確定爲什麼每個病人都有四個值。

回答

1

rf.pred $ chf的維度爲[rf.pred $ n] x [rf.pred $ time.interest]。有關相關終端節點的統計數據和樂團的信息,請參考我們的GitHub頁面理論和技術規格部分:

https://kogalur.github.io/randomForestSRC/

+0

謝謝。我並沒有離開這個。 – Alex