我有樣本訓練數據集,我想知道天氣不同類別事件的日期數量。我應該在班級之間平衡數據集。不同類別的分類數據集的數量是否重要
0
A
回答
1
訓練數據中類表示的不對稱通常稱爲偏斜[https://en.wikipedia.org/wiki/Skewness],併爲您的模型帶來了一些問題,所以一般而言,您希望避免那。
這就是說,這只是一個經驗法則,你可能會遇到這樣的情況,即具有較少數據點的類實際上被正確表示,而其他類是多餘的,在這種情況下,每個班級的積分可能並不重要。
主要問題是,如果數據在代表性方面是平衡的,可能很難說出先驗,所以最好的方法是儘量保持數據點的平衡。此外,有些算法對非對稱數據很敏感,所以即使數據確實代表了空間,不平衡也可能會給模型帶來偏差。
這裏有一些鏈接,可能會有所幫助:
http://people.stern.nyu.edu/fprovost/Papers/skew.PDF
http://etabeta.univ.trieste.it/dspace/bitstream/10077/4002/1/Menardi%20Torelli%20DEAMS%20WPS2.pdf
http://florianhartl.com/thoughts-on-machine-learning-dealing-with-skewed-classes.html
相關問題
- 1. 分離不同類別的數據
- 2. 用不同數量的數據爲每個類別分類圖像
- 3. 如何確定IPv4中不同類別的分類數量?
- 4. Highchart,類別和系列數據的不同數量
- 5. 數據庫設計問題 - 不同類別的多個分數
- 6. 分組數據分成不同的類別
- 7. 預測不同類型的數據集,而不需要一個
- 8. 用不同的類綁定數據集
- 9. 按類別劃分的重要計數年份重複數據(ORACLE PL/SQL)
- 10. 重載了不同數量的數據類型
- 11. 更新來自不同類別的分數變量
- 12. Objective-C類的類別數量是否有限制?
- 13. 在R中導入數據集時識別分類變量
- 14. HighCharts:Addding不同類型的數據來分
- 15. 不同的數據類型分配不同數量的內存嗎?
- 16. 迭代數據並分裂成不同的類別
- 17. 將數據集拆分成不同的類別,並對這些類別中的數據集進行計數,使用PHP/MySQL
- 18. 同一類別的對象數量
- 19. 對具有不同類別的多個分類變量應用表函數
- 20. 如何分類數據集?
- 21. 與分類變量重複行的數據變化的次數
- 22. 如何在ERP應用程序中將數據分類到不同的類別?
- 23. 繪製分類數據與是否
- 24. 重排/分類數據
- 25. 重新分類數據
- 26. 用於情緒識別的分類數據集
- 27. 「基本數據類型」和「內置數據類型」的含義是否相同?
- 28. polyA.fa數據集的Python分類
- 29. 基於訓練集的數據分類
- 30. MATLAB的文本分類數據集