我正在用SAS(9.2)中的PROC LOGISTIC爲大學申請人數據集建模。目標變量是「登記的y/n」,我對13個變量(指標,連續和班級的混合)進行建模,包括:提交的申請數量,參加的活動次數,申請人年齡等。SAS PROC LOGISTIC - 爲什麼適合度測試拒絕模型?
我使用整個數據集的50%來訓練模型,這給了我剛剛少於15,000個觀察值的樣本大小(用於訓練)。
當我運行PROC LOGISTIC時,輸出報告大多數變量在< .0001處高度顯着。
「測試全局空假設:BETA = 0」統計數據還報告該模型的優勢在於< .0001,關聯統計表報告預測概率的高百分比(90%+)是一致的。
所有這些似乎都很棒,直到我找到適合善良的偏差統計。 Pearson,Deviance和Hossmer/Lemeshow測試也都報告了Pr> ChiSq的值爲<.0001。如果我正確解釋了這個問題(參考Paul Allison),這個重要程度意味着模型應該以不合適的理由被拒絕。
我試過使用STEPWISE來減少模型,但這隻會導致拒絕單一因素,並且GOF統計數據不受影響。
懷疑多重共線性,我試着對因變量建模只是單一效應,但我仍然得到了類似的結果 - 對參數估計p值具有高度重要性,但也是GOF測試中的高顯着性值。 ..
我的模型是否存在根本性錯誤 - 或者我在這種情況下誤解了GOF測試?請任何人都能提醒我需要調查什麼?
代碼中,我一直在運行只是一個單一的效果,但它產生相同的問題的結果作爲模型在內的所有因素:下面
/*Applicant_Factors_TRAIN: Single Factor*/
proc logistic DATA=Applicant_Factors_TRAIN;
MODEL Applicant_Enrolled(EVENT='1')= Total_campus_visits/ AGGREGATE SCALE = NONE LACKFIT RSQ;
run;
輸出:
模型的
你可以發佈輸出嗎?這不是一個代碼問題,它聽起來像方法論或解釋問題,所以它可能更適合stats.stackexchange.com – Reeza
嗨@Reeza。你可能是對的。我添加了輸出截圖 - 感謝您的幫助。 – Jon295087
是的,這需要發佈在stats.stackexchange.com。 – Reeza