我對某些預測分析使用邏輯迴歸模型。我們有大約25個預測變量和1個二元結果(Y/N)變量。我正在模擬結果爲「是」的概率。關於稀疏數據的邏輯迴歸
我在訓練數據集中有400,000條記錄,並且在記分集中有相同的數字。訓練集中「Y」的概率是0.1%。 SAS輸出的模型的C統計量爲0.97,這非常好。
當我在我的得分集,我的「陽性預測值」,這是正確中鑑定「Y」總「Y」的比率運行該模型,小於1,這使得我的模型無用。 有人可以建議我如何提高積極的預測價值?
我對某些預測分析使用邏輯迴歸模型。我們有大約25個預測變量和1個二元結果(Y/N)變量。我正在模擬結果爲「是」的概率。關於稀疏數據的邏輯迴歸
我在訓練數據集中有400,000條記錄,並且在記分集中有相同的數字。訓練集中「Y」的概率是0.1%。 SAS輸出的模型的C統計量爲0.97,這非常好。
當我在我的得分集,我的「陽性預測值」,這是正確中鑑定「Y」總「Y」的比率運行該模型,小於1,這使得我的模型無用。 有人可以建議我如何提高積極的預測價值?
假設您的預測值低於您的預期值,意味着您的模型具有較高的方差(它可以很好地預測訓練集,但在驗證集中效果不佳),您應該考慮一些基本選項:
增加模型的複雜性。有可能你的模型對數據來說不夠複雜。添加更多預測變量或預測變量或多項式變量的組合。
增加訓練示例的數量。你的訓練樣例可能不足以證明你的模型。一個典型的比例是60%的培訓 - 20%的確認 - 20%的測試; 50%-50%可能不足(儘管400,000通常是足夠的,誰知道)。
也許你的訓練實例和你的驗證集不是真正的隨機樣本。例如,如果訓練集是2011年數據,並且驗證集是2012年數據,那麼您的模型可能會存在一些與您的模型沒有考慮的年份差異。
你的算法的召回是非常低的,因爲高度傾斜值,這樣你的回憶(你的算法的靈敏度率低)的迴歸,我想你可以對誤分率設定很高的成本是一個積極的例子,並沒有太多的成本負面的例子。希望有所幫助!
您需要不同的數據。你可以給我發送你的數據,我可以猜測N爲每個數據點,並且99.9%的時間是正確的。 – gobrewers14
這個問題不適合堆棧溢出。它會更適合[交叉驗證](http://stats.stackexchange.com),因爲它不是關於統計模型構建,而不是編程。如果你對這個問題的意圖是SAS編程,我建議包括代碼和澄清你的意圖。 –
我會假設比率應該小於1。大於一意味着你預測的Y比實際存在的Y多,這顯然是錯誤的。你的意思是小於0.01還是別的? – Joe