2016-11-23 28 views
0

我目前正在使用一些分類學習算法來估計信號,例如物流回歸和使用scikit-learn的隨機森林。降低信號預測中的假陰性率

我現在正在使用混淆矩陣來估計不同算法在預測中的性能,我發現這兩種算法都有一個共同的問題。也就是說,在所有情況下,雖然算法的準確性似乎相對較好(大約90%-93%),但與TP相比,FN的總數很高(FNR < 3%)。是否有人知道爲什麼我在預測問題中遇到這種問題。如果可能的話,你能給我一些關於如何解決這個問題的提示嗎?

感謝您提前回復並提供幫助。

更新: 數據集非常不平衡(8:1),總共約有180K個觀測值。我已經測試了幾種重新採樣方法,例如OSS,SMOTE(+ Tomek或+ ENN),但它們都沒有返回好結果。在這兩種情況下,雖然召回率從2.5%上升到20%,但精確度顯着下降(從60%降至20%)。

+1

您使用的是圖書館嗎? –

+0

是的,我正在使用Scikit。 – Biertje

回答

0

您可能有一個不平衡的數據集,其中一個類有比其他類更多的示例。

一個解決方案是用較少的例子給類錯誤分類帶來更高的成本。

在交叉驗證這個問題涵蓋了許多方法,您的問題: https://stats.stackexchange.com/questions/131255/class-imbalance-in-supervised-machine-learning

編輯:

假設你正在使用scikit-learn就可以了,因爲第一種方法,參數class_weight設置爲balanced在你的Logistic regression

+0

準確地說,數據集是非常不平衡的(大約8:1)。我已經嘗試了一些重新採樣方法,比如SMOTE,但都沒有返回好結果。 – Biertje

+0

你能給我們提供更多信息嗎?就像發佈混淆矩陣和一些數據樣本一樣? –

+0

感謝您的快速回復。我也試圖讓class_weight達到平衡,但準確度降至75%左右。 – Biertje