在制定預測模型(特別是關於流失的遠程通信)時,是否必須在訓練集中的班級之間進行1:1分配(實際分配更像是1:50) ?在閱讀其他人做過的事時,似乎是這樣。但他們並沒有非要說明這是一項要求。建議什麼?培訓集中班級的歸屬
0
A
回答
0
您的問題通常被稱爲「類不平衡」。是否以及如何影響結果取決於您使用的算法和評估指標。邏輯迴歸算法和模型精度,例如,可能非常容易受到這個問題的影響。另一方面,簡單的信封模型和模型AUC對類別失衡更具彈性。我知道有五種可能的方法來處理這個問題:
1)上採樣:基本上人工增加少數類的數量。當您的數據非常少時,這可能是一種解決方案,但您確信它可以代表更廣泛的人羣。
2)下采樣:只留出一部分豐富的類。當您擁有大量數據時,這是一個選項。
3)加權:告訴你的算法更重要的是從罕見的類獲得的信息。
4)套袋:在這裏,您隨機對您的數據進行二次採樣,並將「弱」學習者擬合到每個子採樣。之後,這些弱勢學習者被彙總起來創造一個最終的預測。 5)提升:與裝袋類似,但每個「弱」學習者對先前擬合的學習者並不是不可知的。相反,他們從最新的合奏中獲取殘差。
有一個really nice article here,通過這些很詳細進入,包括一些R
工作的例子,並another one here它更側重於python
+0
謝謝!正是我需要的! – Ichibichi
相關問題
- 1. Android的培訓班裏,我錯了
- 2. 用於迴歸的python中的培訓/驗證/測試集
- 3. mnist數據集Lenet培訓
- 4. Python培訓數據集
- 5. removeSparseTerms培訓和測試集
- 6. 培訓與Matlab中
- 7. 構建Svm培訓集的困惑
- 8. TensorFlow培訓
- 9. JBoss Seam培訓
- 10. DNN CMS培訓
- 11. NLTK NaiveBayesClassifier培訓
- 12. Sharepoint培訓
- 13. 在線培訓
- 14. 培訓和測試集不是秧雞
- 15. 培訓和測試集拆分
- 16. tf.estimator的分佈式培訓導致更多的培訓步驟
- 17. 在PHP中集成班級
- 18. 感知器培訓的三角洲培訓規則
- 19. 如何在Keras培訓多個班時獲得標籤ID?
- 20. TensorFlow培訓圖片
- 21. LibSVM培訓錯誤
- 22. Azure培訓套件
- 23. 再培訓以來
- 24. 最佳PHP培訓?
- 25. sklearn.neural_network.BernoulliRBM在線培訓?
- 26. Tokenizer培訓與StanfordNLP
- 27. jQuery培訓視頻
- 28. OpenCV培訓輸出
- 29. MySQL培訓視頻
- 30. MNIST - 培訓卡住
我認爲你的問題會吸引更多的注意力放在stats.stackexchange.com;不過,我會在下面給出一個答案(相對一般的問題)的嘗試。 – JanLauGe