2014-05-04 56 views
0

我已經創建了一個邏輯模型,它使用帶有〜10個預測變量和二元響應變量的glm。使用我的完整數據集(〜8000觀測值)的一個子集創建模型,方法是隨機選擇3000個觀測值,將這些觀測值放入一個新數據集(newdata)中,並將glm擬合爲新數據。通過觀察它如何描述R中不同數據集來評估glm

爲了評估模型,我想看看模型如何描述不同數據集(testdata)中的數據,該數據集具有隨機選擇的例如數據。來自完整數據集的〜1000個觀測值。我會如何去做R?

我已經爲係數創建了兩個置信區間,並且查看了Wald-statistical和LRT來評估我的模型的統計顯着性,但是希望能夠看到它描述瞭如何很好地描述隨機選擇的完整數據集。

感謝一大堆!

回答

1

有幾種可能的方法。首先,爲了從樣本中評估模型,您必須選擇一個性能指標。說這是MSE,並假設你的測試集被稱爲測試,那麼你可以使用:

mean((test$response - predict(m, newdata = test, type = "response"))^2) 

對於邏輯迴歸,你可以計算出物流的家庭,而不是使用MSE的越軌行爲。或者您可以使用ROCR軟件包中提供的curve/Gini下的區域。此外,您可能希望進行交叉驗證,而不是隻進行一次樣品測試,這可以通過cvTools::cvFit完成。

+0

謝謝你這麼快速的回答!這就是我一直在尋找的:) – Prebsus