2015-12-30 40 views

回答

3

我回答這是一個關於決策樹而不是R實現的一般問題。

決策樹的參數通常基於記錄計數 - 想到最小葉片大小和最小分割搜索大小。另外,純度度量在構建樹時受節點大小的影響。當你有重複的記錄時,你隱式地對這些行中的值加權。這是既不好也不壞,您只需要瞭解要構建的數據和模型。如果重複值來自不同的實驗運行,那麼它們應該沒問題。

在某些情況下,重複項(或等效權重)可能非常糟糕。例如,如果您要對數據進行過採樣以在目標上獲得均衡的樣本,那麼額外的行就會出現問題。單個葉子可能最終由原始數據中的單個實例組成 - 過度擬合會成爲問題。

0

在某些方面,這取決於數據本身。重複的行是否有效數據?或者它們只是部分重複但仍然重要?

如果數據是在給定小時內的城鎮溫度測量,可能重複的溫度是重要的,因爲它們會將該變量加權爲比另一個不同的單獨測量更正確的溫度。

如果數據是三個人同時記錄在同一個溫度計上的溫度測量數據,那麼您希望通過減少到唯一值來消除數據中的噪音。

答案很可能是以上的組合。如果您有多個讀數在同一時間段發生衝突,您可以選擇權重最高的讀數,然後決定如何斷開關係,如果所有測量結果都相同,則刪除重複項。通過這種方式,您可以在將數據通過算法之前清除清除的數據。

這一切都歸結爲數據模型中的相關內容以及重複行是否與結果相關。