2016-04-17 26 views
1

我是新來的數據挖掘,我試圖訓練決策樹,但我選擇的數據集是非常有偏見的,因此我得到的結果也有偏差。我在網上搜索過,並且我遇到了平衡的準確性。我對結果不滿意。有偏倚的數據集的培訓決策樹

如果我以我平等比例的方式對數據集進行抽樣,是不是一個好主意?如YES的1000個案例和NO的1000個案例?

+0

而不是重新採樣數據集,我會在訓練期間使用權重。 –

回答

0

處理類不平衡的一種方法是對較大的類進行欠採樣,以使類分佈大約爲一半。

你的問題的答案是肯定的,只要1000是較小的類的大小,以便你失去較少的大類數據點。

備註:從較大等級的數據點中進行選擇時,儘量省略那些缺失值較大的數據點。

0

您還可以在建模時給予權重。您可以將更高的權重分配給少數族羣,這將彌補不平衡。