2017-04-18 94 views
0

我正在用SAS(9.2)中的PROC LOGISTIC爲大學申請人數據集建模。目標變量是「登記的y/n」,我對13個變量(指標,連續和班級的混合)進行建模,包括:提交的申請數量,參加的活動次數,申請人年齡等。SAS PROC LOGISTIC - 爲什麼適合度測試拒絕模型?

我使用整個數據集的50%來訓練模型,這給了我剛剛少於15,000個觀察值的樣本大小(用於訓練)。

當我運行PROC LOGISTIC時,輸出報告大多數變量在< .0001處高度顯着。

「測試全局空假設:BETA = 0」統計數據還報告該模型的優勢在於< .0001,關聯統計表報告預測概率的高百分比(90%+)是一致的。

所有這些似乎都很棒,直到我找到適合善良的偏差統計。 Pearson,Deviance和Hossmer/Lemeshow測試也都報告了Pr> ChiSq的值爲<.0001。如果我正確解釋了這個問題(參考Paul Allison),這個重要程度意味着模型應該以不合適的理由被拒絕。

我試過使用STEPWISE來減少模型,但這隻會導致拒絕單一因素,並且GOF統計數據不受影響。

懷疑多重共線性,我試着對因變量建模只是單一效應,但我仍然得到了類似的結果 - 對參數估計p值具有高度重要性,但也是GOF測試中的高顯着性值。 ..

我的模型是否存在根本性錯誤 - 或者我在這種情況下誤解了GOF測試?請任何人都能提醒我需要調查什麼?

代碼中,我一直在運行只是一個單一的效果,但它產生相同的問題的結果作爲模型在內的所有因素:下面

/*Applicant_Factors_TRAIN: Single Factor*/ 
proc logistic DATA=Applicant_Factors_TRAIN; 
MODEL Applicant_Enrolled(EVENT='1')= Total_campus_visits/ AGGREGATE SCALE = NONE LACKFIT RSQ; 
run; 

輸出:

enter image description here

enter image description here

enter image description here

enter image description here

模型的

enter image description here

+0

你可以發佈輸出嗎?這不是一個代碼問題,它聽起來像方法論或解釋問題,所以它可能更適合stats.stackexchange.com – Reeza

+0

嗨@Reeza。你可能是對的。我添加了輸出截圖 - 感謝您的幫助。 – Jon295087

+0

是的,這需要發佈在stats.stackexchange.com。 – Reeza

回答

0

因爲我已經讀大型數據集處理的時候,因此,根據文獻的擬合檢驗美好的事物變得本身是有問題,紛紛選擇忽視它們(Johnson&Wichern,1992)(Shmueli,Lin和Lucas Jr. 2013)(Li,2007)。這種方法考慮了p值,檢驗虛假設,ROC AUC c統計量,置信區間和最大重標度R- 2013)

0

我現狀

  1. 你的模型有關係的極高%(並列百分比= 32.8%),只有56.7%的一致性的。所以,你的模型的準確性不好。 'c'值爲0.729或72.9%並不能真實反映您的模型。 'c'值或AUC =(0.567+(0.328/2))。這意味着你的c值受到高比例關係的影響。

  2. 高%關係很多你的數據點導致邊界的預測,即既不是0也不是1。

II所以,你需要做什麼: -

您需要降低%的關係,努力實現高一致性,高精確度,因此可以接受的GOF參數

III如何改進模型

  1. 的事情之一,我總是這樣,平常的事情一樣逐步或向後選擇失敗是使用BOOTSTRAPPING。一個最簡單的和強大的算法,幫助我們用多個樣品獲得最相關的變量,從而提高了模型的精度和穩定性幫助的

  2. 如果BOOTSTRAPPING也失敗,再嘗試Machine Learning techniques像隨機森林,GBM等隨機森林被認爲是最強大的分類算法之一

  3. 如果單個算法也失敗,則嘗試stacking。只需結合多種分類算法的預測能力即可。注意: - 當以上所有選項都已用完時使用此功能。

希望這有助於:-)