2012-11-12 331 views
0

在決策樹中應對噪聲的策略有哪些?決策樹。噪聲策略

在我的訓練數據,

我有兩個記錄具有相同的屬性,但他們給不同的分類。

  1. 女,奢侈品,LV,是
  2. 女,奢侈品,LV,沒有

根據我的閱讀,它說要返回的這兩個記錄多個分類。

但是,當我想進行預測時會產生問題,因爲我的預測結果應該是或不是。

因此,試圖找出我可以在這種情況下使用什麼策略來預測。

謝謝。

+2

替代選擇:1.消除這些矛盾,2.增加更多的決策屬性,即「女性,奢侈,LV」應該補充額外的消歧功能,帶來2個不同的選擇器 - 一個用於「是」另一個是「不」。 3.你能否提供模糊的方法,即將概率存儲爲決定而不是具體的「是」還是「否」? – Stan

+0

**修剪**處理非類屬性中的噪音,葉子中的可能性處理不明確的類。 –

+0

@Stan。這是一項任務,所以我不能確定問題是如何嚴重的。謝謝! – Wilson

回答

0

當類預測是未定:

  1. 最簡單的(普通)的方法是預測多數類
  2. 獲取更多信息。例如,包含其他屬性(如果可用)或獲取更多培訓樣本(如果可用)。
  3. 刪除一些信息。其目的是儘可能多地去除儘可能多的噪聲源,同時儘可能地保留預測信息。通常它是通過刪除無用屬性來完成的。在樹的情況下,可以通過修剪來完成。最終,您可以刪除異常值(如錯誤測量的樣本),但您必須知道哪些樣本屬於異常值。