關於稀疏數據的邏輯迴歸

我對某些預測分析使用邏輯迴歸模型。我們有大約25個預測變量和1個二元結果（Y/N）變量。我正在模擬結果爲「是」的概率。關於稀疏數據的邏輯迴歸

我在訓練數據集中有400,000條記錄，並且在記分集中有相同的數字。訓練集中「Y」的概率是0.1％。 SAS輸出的模型的C統計量爲0.97，這非常好。

當我在我的得分集，我的「陽性預測值」，這是正確中鑑定「Y」總「Y」的比率運行該模型，小於1，這使得我的模型無用。有人可以建議我如何提高積極的預測價值？

您需要不同的數據。你可以給我發送你的數據，我可以猜測N爲每個數據點，並且99.9％的時間是正確的。 – gobrewers14

這個問題不適合堆棧溢出。它會更適合[交叉驗證]（http://stats.stackexchange.com），因爲它不是關於統計模型構建，而不是編程。如果你對這個問題的意圖是SAS編程，我建議包括代碼和澄清你的意圖。 –

我會假設比率應該小於1。大於一意味着你預測的Y比實際存在的Y多，這顯然是錯誤的。你的意思是小於0.01還是別的？ – Joe

假設您的預測值低於您的預期值，意味着您的模型具有較高的方差（它可以很好地預測訓練集，但在驗證集中效果不佳），您應該考慮一些基本選項：

增加模型的複雜性。有可能你的模型對數據來說不夠複雜。添加更多預測變量或預測變量或多項式變量的組合。
增加訓練示例的數量。你的訓練樣例可能不足以證明你的模型。一個典型的比例是60％的培訓 - 20％的確認 - 20％的測試; 50％-50％可能不足（儘管400,000通常是足夠的，誰知道）。
也許你的訓練實例和你的驗證集不是真正的隨機樣本。例如，如果訓練集是2011年數據，並且驗證集是2012年數據，那麼您的模型可能會存在一些與您的模型沒有考慮的年份差異。

2014-04-23 15:21:01 Joe

你的算法的召回是非常低的，因爲高度傾斜值，這樣你的回憶（你的算法的靈敏度率低）的迴歸，我想你可以對誤分率設定很高的成本是一個積極的例子，並沒有太多的成本負面的例子。希望有所幫助！

2014-10-15 21:49:31

回答