重複行如何影響決策樹？

我正在使用Rpart {}爲分類變量構建決策樹，我想知道是否應該使用完整數據集中的唯一行集。重複行如何影響決策樹？

2015-12-30 Mouad_S

我回答這是一個關於決策樹而不是R實現的一般問題。

決策樹的參數通常基於記錄計數 - 想到最小葉片大小和最小分割搜索大小。另外，純度度量在構建樹時受節點大小的影響。當你有重複的記錄時，你隱式地對這些行中的值加權。這是既不好也不壞，您只需要瞭解要構建的數據和模型。如果重複值來自不同的實驗運行，那麼它們應該沒問題。

在某些情況下，重複項（或等效權重）可能非常糟糕。例如，如果您要對數據進行過採樣以在目標上獲得均衡的樣本，那麼額外的行就會出現問題。單個葉子可能最終由原始數據中的單個實例組成 - 過度擬合會成爲問題。

2015-12-30 16:14:35

在某些方面，這取決於數據本身。重複的行是否有效數據？或者它們只是部分重複但仍然重要？

如果數據是在給定小時內的城鎮溫度測量，可能重複的溫度是重要的，因爲它們會將該變量加權爲比另一個不同的單獨測量更正確的溫度。

如果數據是三個人同時記錄在同一個溫度計上的溫度測量數據，那麼您希望通過減少到唯一值來消除數據中的噪音。

答案很可能是以上的組合。如果您有多個讀數在同一時間段發生衝突，您可以選擇權重最高的讀數，然後決定如何斷開關係，如果所有測量結果都相同，則刪除重複項。通過這種方式，您可以在將數據通過算法之前清除清除的數據。

這一切都歸結爲數據模型中的相關內容以及重複行是否與結果相關。

2015-12-30 16:19:29

回答