降低信號預測中的假陰性率

我目前正在使用一些分類學習算法來估計信號，例如物流回歸和使用scikit-learn的隨機森林。降低信號預測中的假陰性率

我現在正在使用混淆矩陣來估計不同算法在預測中的性能，我發現這兩種算法都有一個共同的問題。也就是說，在所有情況下，雖然算法的準確性似乎相對較好（大約90％-93％），但與TP相比，FN的總數很高（FNR < 3％）。是否有人知道爲什麼我在預測問題中遇到這種問題。如果可能的話，你能給我一些關於如何解決這個問題的提示嗎？

感謝您提前回復並提供幫助。

更新：數據集非常不平衡（8：1），總共約有180K個觀測值。我已經測試了幾種重新採樣方法，例如OSS，SMOTE（+ Tomek或+ ENN），但它們都沒有返回好結果。在這兩種情況下，雖然召回率從2.5％上升到20％，但精確度顯着下降（從60％降至20％）。

來源

2016-11-23 Biertje

您使用的是圖書館嗎？ –

是的，我正在使用Scikit。 – Biertje

您可能有一個不平衡的數據集，其中一個類有比其他類更多的示例。

一個解決方案是用較少的例子給類錯誤分類帶來更高的成本。

在交叉驗證這個問題涵蓋了許多方法，您的問題： https://stats.stackexchange.com/questions/131255/class-imbalance-in-supervised-machine-learning

編輯：

假設你正在使用scikit-learn就可以了，因爲第一種方法，參數class_weight設置爲balanced在你的Logistic regression。

來源

2016-11-23 09:41:57

準確地說，數據集是非常不平衡的（大約8：1）。我已經嘗試了一些重新採樣方法，比如SMOTE，但都沒有返回好結果。 – Biertje

你能給我們提供更多信息嗎？就像發佈混淆矩陣和一些數據樣本一樣？ –

感謝您的快速回復。我也試圖讓class_weight達到平衡，但準確度降至75％左右。 – Biertje

降低信號預測中的假陰性率

回答

相關問題