-2

我目前在數據科學課程中,我的一個項目正在創建一個模型來預測員工流失。statsmodels中的低R2和scikit中的高精度/精度

我有一個模擬數據集,我正在使用,我已經設置了我的X和Y's。

我跑了4個模型。第一個是在statsmodels進行邏輯迴歸。那個輸出是0.142的僞Rsquared,非常低。

但是,我在scikit中學習的接下來的3個模型(邏輯迴歸,k最近鄰居和決策樹)。在這些模型中,我將X和Y分解爲訓練和測試集。對於每個人,我都運行準確度和精確度分數,他們都高於75%。另外,我在每個模型上都進行了交叉驗證評分,每個評分仍高於75%。

我的問題是,我可以在scikit學習模型上獲得高分,並且statsmodel上運行的R2很低?

這種情況會發生嗎?如果是這樣,怎麼解釋?謝謝!

+0

歡迎來到SO。請閱讀這個[how-to-ask](http://stackoverflow.com/help/how-to-ask)來改進您的問題,並提供足夠的具體信息,例如試圖解決問題和錯誤消息的代碼等 – thewaywewere

+0

也許,我誤解了你,但是R2是ERROR的度量,所以,當錯誤率低時,得分相應較高。似乎一切都好了 –

+0

這是非常不清楚的。你正在解決的問題是迴歸還是分類?你說你測量了'R2',那麼它似乎迴歸了。但是你說你計算準確度和精度?準確性和精確度用於分類,而不是迴歸。你可以發佈代碼庫和一些數據。 –

回答

0

部分答案,因爲我從來沒有在任何例子中比較它們。

(這看起來更像是一個統計,而不是一個編程問題stats.stackexchange?)。

從本質上講,這兩種度量都有些但並不直接相關,statsmodels中使用的定義中的僞rsquare將完整模型的對數似然與只有常數的模型的對數似然比較。該度量是在對數似然比的範圍內,並且與僅有常數的參考模型相比,其顯示出相對改進。

準確度和準確度直接測量預測性能,它使用不同的比例尺,並且是不與參考模型比較的絕對測量值。例如,您可以檢查預測性措施相比僅有常數的模型有多少改進。

具體措施的另一個區別是準確性和準確性使用閾值和離散化預測。相反,對數似然性基於概率。
例如,如果閾值爲0.5。那麼在兩種情況下,觀察概率爲0.500001或0.49999都是正確的預測,但概率遠離1和0.