2017-08-03 100 views
2

我試圖在二元分類問題(誤報成本很高)中最大化精度。數據集也是非常不平衡的。爲了防止誤報,第二次使用權重列兩次運行DRF或XGBOOST模型是否有意義?在H2O隨機森林和xgboost中使用權重列

除了這種潛在的方法,在這些H2O算法中還有其他方法可以最大化精度(而不是對數損失)嗎?我也將使用一個合奏(這似乎增加了精度)。交叉驗證似乎沒有幫助。

回答

0

首先,我會使用balance_classes(將其設置爲true)。這將有助於一些不平衡的數據。 (如果你需要精確控制的話,請看class_sampling_factorsmax_after_balance_size)。

我的預感是你的建議使用一個模型的輸出來衡量第二個模型是危險的。這聽起來像是堆疊集成的想法,但手寫代碼和自定義代碼更可能存在缺陷。 (但是,如果你確實嘗試了,看代碼和結果會很有意思)。

爲了最大限度地提高精確度,我會和一個合奏團合作,並將我的努力投入到製作3個或4個不同的模型中長處和短處。例如。 GBM,GLM,具有所有默認設置的深度學習模型,然後是使用退出(以及更多隱藏節點進行補償)的深度學習模型。