使用外部數據的生存模型驗證

我有兩個數據集（培訓和驗證）用於構建和驗證Cox模型。使用外部數據的生存模型驗證

隨着訓練數據集I使用逐步選擇方法擬合了一個cox模型。

模型中的重要變量是包含在驗證模型中的唯一變量。 這是正確的方法嗎？

在驗證模型時，我意識到變量在驗證模型中並不重要，並且cox模型的假設也不成立（我檢查了驗證數據的假設）。 我是否應該忽略變量不重要的事實，並繼續使用驗證數據中的模型假設對問題進行修正？

第三，在培訓和驗證數據中，我有一個變量「治療」與三組。在訓練中，這些組是標準，新葯和混合物，而在驗證數據中，這些組是標準，新葯和X（是一種與訓練數據中的混合物不同的處理）。在模型中包含這個變量是否正確，或者是否應該消除不匹配的組;來自訓練數據的混合物和來自驗證數據的X，還是我應該這樣工作？我不確定這是如何影響我的分析的。

感謝您的回覆。

來源

2016-06-27 Jyde

回答你的第一個問題：是的，這是正確的方法。培訓和驗證集的整個概念是，您基於訓練集對模型做出所有決策（這裏：添加哪些變量）。然後使用驗證集來評估訓練集中結果的穩健程度。這樣你可以檢查過度配合，異常值，數據錯誤等。

但是，我不會推薦逐步迴歸方法。看到這篇文章的最佳答案：https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r。

第二個問題：不，你不應該忽略微不足道的變數。這正是你有驗證集的原因。也許你的訓練集有幾個非常有影響力的觀察結果（異常值）？或者是其他東西？無論如何，你必須做一些額外的研究。

你是什麼意思？我假定你的意思是比例危險（PH）假設不成立，因爲這個假設經常被違反。與第一個問題的答案相同的推理。首先在訓練集上檢查假設。如果它不在那裏，請在模型中進行調整。如果它確實是違反變量的PH假設，則增加一個時間交互作用或者建立一個分層的cox模型。 [例如：http://www.dbc.wroc.pl/Content/27006/Borucka_Extensions_of_Cox_model_For_non_proportional.pdf]

我不完全確定我對第三個問題的回答，但是這裏是：如果在驗證模型中包含X（如果它未包含在您的訓練模型中）是不正確的。變量治療是一個因素，因此在迴歸中，它基本上變爲每個級別的虛擬變量（0/1）。因此，包含X就像在驗證模型中引入一個全新的變量一樣，這是違反直覺的。

希望這會有所幫助！

來源

2016-07-15 13:47:11 Marcel10

使用外部數據的生存模型驗證

回答

相關問題