2016-06-27 39 views
1

我有兩個數據集(培訓和驗證)用於構建和驗證Cox模型。使用外部數據的生存模型驗證

隨着訓練數據集I使用逐步選擇方法擬合了一個cox模型。

模型中的重要變量是包含在驗證模型中的唯一變量。 這是正確的方法嗎?

在驗證模型時,我意識到變量在驗證模型中並不重要,並且cox模型的假設也不成立(我檢查了驗證數據的假設)。 我是否應該忽略變量不重要的事實,並繼續使用驗證數據中的模型假設對問題進行修正?

第三,在培訓和驗證數據中,我有一個變量「治療」與三組。在訓練中,這些組是標準,新葯和混合物,而在驗證數據中,這些組是標準,新葯和X(是一種與訓練數據中的混合物不同的處理)。 在模型中包含這個變量是否正確,或者是否應該消除不匹配的組;來自訓練數據的混合物和來自驗證數據的X,還是我應該這樣工作?我不確定這是如何影響我的分析的。

感謝您的回覆。

回答

1

回答你的第一個問題:是的,這是正確的方法。培訓和驗證集的整個概念是,您基於訓練集對模型做出所有決策(這裏:添加哪些變量)。然後使用驗證集來評估訓練集中結果的穩健程度。這樣你可以檢查過度配合,異常值,數據錯誤等。

但是,我不會推薦逐步迴歸方法。看到這篇文章的最佳答案:https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r

第二個問題:不,你不應該忽略微不足道的變數。這正是你有驗證集的原因。也許你的訓練集有幾個非常有影響力的觀察結果(異常值)?或者是其他東西?無論如何,你必須做一些額外的研究。

你是什麼意思?我假定你的意思是比例危險(PH)假設不成立,因爲這個假設經常被違反。與第一個問題的答案相同的推理。首先在訓練集上檢查假設。如果它不在那裏,請在模型中進行調整。如果它確實是違反變量的PH假設,則增加一個時間交互作用或者建立一個分層的cox模型。 [例如:http://www.dbc.wroc.pl/Content/27006/Borucka_Extensions_of_Cox_model_For_non_proportional.pdf]

我不完全確定我對第三個問題的回答,但是這裏是:如果在驗證模型中包含X(如果它未包含在您的訓練模型中)是不正確的。變量治療是一個因素,因此在迴歸中,它基本上變爲每個級別的虛擬變量(0/1)。因此,包含X就像在驗證模型中引入一個全新的變量一樣,這是違反直覺的。

希望這會有所幫助!