2016-01-21 21 views

回答

1

當然,是的,因爲如果它是一個隨機樣本,它代表數據中的基本分佈,它告訴您這個特定值具有更高的概率。刪除重複數據只會使數據集變得毫無用處。

+0

但是在使用兩個類進行簡單分類的情況下(例如,Yes \ No),錯誤重複是否有意義?例如,'0 0 255'顯然不是膚色。我認爲在200重複它沒有意義:) – MrPisarik

+0

我認爲這是依賴於使用的分類器類型 – MrPisarik

+0

這是一個不同的問題:數據是否有效? – latorrefabian

0

這很重要。例如:如果行'a'在數據中出現5次,而另一行'b'只出現一次,那麼您希望將行'a'分類好於'b',因爲當您計算成本函數行'a'會出現更多的時間,並對成本有更大的影響。

而且,如果你的訓練很好地代表了測試數據,那麼行'a'出現的次數就會高於行'b'的次數。