statsmodels中的低R2和scikit中的高精度/精度

-2

我目前在數據科學課程中，我的一個項目正在創建一個模型來預測員工流失。statsmodels中的低R2和scikit中的高精度/精度

我有一個模擬數據集，我正在使用，我已經設置了我的X和Y's。

我跑了4個模型。第一個是在statsmodels進行邏輯迴歸。那個輸出是0.142的僞Rsquared，非常低。

但是，我在scikit中學習的接下來的3個模型（邏輯迴歸，k最近鄰居和決策樹）。在這些模型中，我將X和Y分解爲訓練和測試集。對於每個人，我都運行準確度和精確度分數，他們都高於75％。另外，我在每個模型上都進行了交叉驗證評分，每個評分仍高於75％。

我的問題是，我可以在scikit學習模型上獲得高分，並且statsmodel上運行的R2很低？

這種情況會發生嗎？如果是這樣，怎麼解釋？謝謝！

2017-05-06 wtt85

歡迎來到SO。請閱讀這個[how-to-ask]（http://stackoverflow.com/help/how-to-ask）來改進您的問題，並提供足夠的具體信息，例如試圖解決問題和錯誤消息的代碼等 – thewaywewere

也許，我誤解了你，但是R2是ERROR的度量，所以，當錯誤率低時，得分相應較高。似乎一切都好了 –

這是非常不清楚的。你正在解決的問題是迴歸還是分類？你說你測量了'R2'，那麼它似乎迴歸了。但是你說你計算準確度和精度？準確性和精確度用於分類，而不是迴歸。你可以發佈代碼庫和一些數據。 –

部分答案，因爲我從來沒有在任何例子中比較它們。

（這看起來更像是一個統計，而不是一個編程問題stats.stackexchange？）。

從本質上講，這兩種度量都有些但並不直接相關，statsmodels中使用的定義中的僞rsquare將完整模型的對數似然與只有常數的模型的對數似然比較。該度量是在對數似然比的範圍內，並且與僅有常數的參考模型相比，其顯示出相對改進。

準確度和準確度直接測量預測性能，它使用不同的比例尺，並且是不與參考模型比較的絕對測量值。例如，您可以檢查預測性措施相比僅有常數的模型有多少改進。

具體措施的另一個區別是準確性和準確性使用閾值和離散化預測。相反，對數似然性基於概率。
例如，如果閾值爲0.5。那麼在兩種情況下，觀察概率爲0.500001或0.49999都是正確的預測，但概率遠離1和0.

2017-05-07 05:11:47 user333700

回答