Q

有偏倚的數據集的培訓決策樹

2016-04-17 42 views 1 likes

1

我是新來的數據挖掘，我試圖訓練決策樹，但我選擇的數據集是非常有偏見的，因此我得到的結果也有偏差。我在網上搜索過，並且我遇到了平衡的準確性。我對結果不滿意。有偏倚的數據集的培訓決策樹

如果我以我平等比例的方式對數據集進行抽樣，是不是一個好主意？如YES的1000個案例和NO的1000個案例？

2016-04-17 Praveen

+0

而不是重新採樣數據集，我會在訓練期間使用權重。 –

A

回答

0

處理類不平衡的一種方法是對較大的類進行欠採樣，以使類分佈大約爲一半。

你的問題的答案是肯定的，只要1000是較小的類的大小，以便你失去較少的大類數據點。

備註：從較大等級的數據點中進行選擇時，儘量省略那些缺失值較大的數據點。

2016-04-19 05:14:40

0

您還可以在建模時給予權重。您可以將更高的權重分配給少數族羣，這將彌補不平衡。

2016-04-21 18:51:37 Atendra

相關問題