我是新來的數據挖掘,我試圖訓練決策樹,但我選擇的數據集是非常有偏見的,因此我得到的結果也有偏差。我在網上搜索過,並且我遇到了平衡的準確性。我對結果不滿意。有偏倚的數據集的培訓決策樹
如果我以我平等比例的方式對數據集進行抽樣,是不是一個好主意?如YES
的1000個案例和NO
的1000個案例?
我是新來的數據挖掘,我試圖訓練決策樹,但我選擇的數據集是非常有偏見的,因此我得到的結果也有偏差。我在網上搜索過,並且我遇到了平衡的準確性。我對結果不滿意。有偏倚的數據集的培訓決策樹
如果我以我平等比例的方式對數據集進行抽樣,是不是一個好主意?如YES
的1000個案例和NO
的1000個案例?
處理類不平衡的一種方法是對較大的類進行欠採樣,以使類分佈大約爲一半。
你的問題的答案是肯定的,只要1000是較小的類的大小,以便你失去較少的大類數據點。
備註:從較大等級的數據點中進行選擇時,儘量省略那些缺失值較大的數據點。
您還可以在建模時給予權重。您可以將更高的權重分配給少數族羣,這將彌補不平衡。
而不是重新採樣數據集,我會在訓練期間使用權重。 –