我有一個20000個訓練樣例的數據集,我想在其中進行二元分類。 問題是數據集嚴重不平衡,只有大約1000人處於積極的階層。我正在嘗試使用xgboost(在R中)來做我的預測。Xgboost處理不平衡的分類數據
我已經嘗試過採樣和欠採樣,不管我做什麼,不知何故,預測總是導致在分類中作爲大多數類的一切。
我嘗試閱讀本文,瞭解如何在xgboost中調整參數。 https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
但它只提到哪些參數有助於不平衡的數據集,但沒有提及如何調整它們。
如果有人對調整xgboost的學習參數以處理不平衡數據集以及如何爲這些情況生成驗證集有任何建議,我將不勝感激。
這可能會有幫助http://stats.stackexchange.com/questions/171043/how-to-tune-hyperparameters-of-xgboost-trees – gfgm