我目前正在使用一些分類學習算法來估計信號,例如物流回歸和使用scikit-learn的隨機森林。降低信號預測中的假陰性率
我現在正在使用混淆矩陣來估計不同算法在預測中的性能,我發現這兩種算法都有一個共同的問題。也就是說,在所有情況下,雖然算法的準確性似乎相對較好(大約90%-93%),但與TP相比,FN的總數很高(FNR < 3%)。是否有人知道爲什麼我在預測問題中遇到這種問題。如果可能的話,你能給我一些關於如何解決這個問題的提示嗎?
感謝您提前回復並提供幫助。
更新: 數據集非常不平衡(8:1),總共約有180K個觀測值。我已經測試了幾種重新採樣方法,例如OSS,SMOTE(+ Tomek或+ ENN),但它們都沒有返回好結果。在這兩種情況下,雖然召回率從2.5%上升到20%,但精確度顯着下降(從60%降至20%)。
您使用的是圖書館嗎? –
是的,我正在使用Scikit。 – Biertje