通過觀察它如何描述R中不同數據集來評估glm

我已經創建了一個邏輯模型，它使用帶有〜10個預測變量和二元響應變量的glm。使用我的完整數據集（〜8000觀測值）的一個子集創建模型，方法是隨機選擇3000個觀測值，將這些觀測值放入一個新數據集（newdata）中，並將glm擬合爲新數據。通過觀察它如何描述R中不同數據集來評估glm

爲了評估模型，我想看看模型如何描述不同數據集（testdata）中的數據，該數據集具有隨機選擇的例如數據。來自完整數據集的〜1000個觀測值。我會如何去做R？

我已經爲係數創建了兩個置信區間，並且查看了Wald-statistical和LRT來評估我的模型的統計顯着性，但是希望能夠看到它描述瞭如何很好地描述隨機選擇的完整數據集。

感謝一大堆！

2014-05-04 Prebsus

有幾種可能的方法。首先，爲了從樣本中評估模型，您必須選擇一個性能指標。說這是MSE，並假設你的測試集被稱爲測試，那麼你可以使用：

mean((test$response - predict(m, newdata = test, type = "response"))^2)

對於邏輯迴歸，你可以計算出物流的家庭，而不是使用MSE的越軌行爲。或者您可以使用ROCR軟件包中提供的curve/Gini下的區域。此外，您可能希望進行交叉驗證，而不是隻進行一次樣品測試，這可以通過cvTools::cvFit完成。

2014-05-04 14:21:53

謝謝你這麼快速的回答！這就是我一直在尋找的:) – Prebsus

回答