2011-10-03 60 views
0

我有一個約3000正面和1500負面樣本,約1000功能的數據集。所有功能都是實數。我想用「randomForest」R包訓練一個隨機的分類器。randomForest:如何獲得100% - 精確度?

的問題是,我想用100%精度(TP/TP + FP)上訓練數據集的分類器。但是,我很難通過調整訓練有素的隨機森林中的$投票來實現這一目標。

我不知道是否有人有經驗或有這樣那樣的問題的任何想法?如果你有任何線索,請給我一些提示。提前致謝!

我願意接受任何其他機器學習方法,如果答應我100%的準確率。

+0

回想= TP /(TP + FN)。精度= TP /(TP + FP)。 http://en.wikipedia.org/wiki/Precision_and_recall#Definition_.28classification_context.29 –

回答

1

如果你一直無法通過修改您的投票率門檻做到這一點,那麼你就必須以某種方式修改樹木本身。要做到這一點

一種方式是實際訓練加權樹。不幸的是,我不」有一個指針,現在對於這一點,但是這是類似於什麼在Viola/Jones paper here完成(但他們是爲了提升。)

(其中第二個想法你看參數:classwt有評論「類的Priors。不需要加起來,忽略迴歸。」)this page

一個快速點:假陽性率不等於FP/(FP + TP)。這真的是FP/(FP + TN)或等效FP/"actual negatives",因爲你真的只想考慮有多少誤報被檢測爲實際底片的函數。

+0

感謝您的回覆。我嘗試了投票分數,但它的效果不是很好,因爲一些負面樣本的正面標籤接近1票。我嘗試了一下classwt,但它不能很好地工作(一些線程認爲這個特性還沒有在R中實現)。 – rninja

+0

您可能只需要更好的功能。 –