我正在使用Rpart {}爲分類變量構建決策樹,我想知道是否應該使用完整數據集中的唯一行集。重複行如何影響決策樹?
2
A
回答
3
我回答這是一個關於決策樹而不是R實現的一般問題。
決策樹的參數通常基於記錄計數 - 想到最小葉片大小和最小分割搜索大小。另外,純度度量在構建樹時受節點大小的影響。當你有重複的記錄時,你隱式地對這些行中的值加權。這是既不好也不壞,您只需要瞭解要構建的數據和模型。如果重複值來自不同的實驗運行,那麼它們應該沒問題。
在某些情況下,重複項(或等效權重)可能非常糟糕。例如,如果您要對數據進行過採樣以在目標上獲得均衡的樣本,那麼額外的行就會出現問題。單個葉子可能最終由原始數據中的單個實例組成 - 過度擬合會成爲問題。
0
在某些方面,這取決於數據本身。重複的行是否有效數據?或者它們只是部分重複但仍然重要?
如果數據是在給定小時內的城鎮溫度測量,可能重複的溫度是重要的,因爲它們會將該變量加權爲比另一個不同的單獨測量更正確的溫度。
如果數據是三個人同時記錄在同一個溫度計上的溫度測量數據,那麼您希望通過減少到唯一值來消除數據中的噪音。
答案很可能是以上的組合。如果您有多個讀數在同一時間段發生衝突,您可以選擇權重最高的讀數,然後決定如何斷開關係,如果所有測量結果都相同,則刪除重複項。通過這種方式,您可以在將數據通過算法之前清除清除的數據。
這一切都歸結爲數據模型中的相關內容以及重複行是否與結果相關。
相關問題
- 1. 決策樹執行
- 2. 執行決策樹
- 3. 如何計算決策樹
- 4. 如何設置決策樹
- 5. 如何存儲決策樹
- 6. J48決策樹
- 7. 決策樹jQuery
- 8. 決策樹。噪聲策略
- 9. Adaboost決策樹/樹樁
- 10. 決策樹問題解決
- 11. 決策樹:細化
- 12. 決策樹結果
- 13. weka決策樹java
- 14. 建模決策樹
- 15. 決策樹修剪
- 16. 修剪決策樹
- 17. Python決策樹GraphViz
- 18. 決策樹組件
- 19. 如何在我用C構建決策樹時存儲決策樹?
- 20. pyspark決策樹中的樣本權重
- 21. 決策樹學習算法中的重複訓練數據
- 22. 如何在R中做決策樹?
- 23. 如何用yes/no表示決策樹?
- 24. 非二元決策樹到二元決策樹(機器學習)
- 25. 決策樹在樹決策中保持使用Y變量
- 26. 如何強行推行「是/否」決策樹?
- 27. 如何影響Azure C#中的GetSubscription()和SubscriptionExists()的重試策略#
- 28. 執行決策樹的語言
- 29. 服務器維護何時應影響實施的決策?
- 30. SQL Server - 刪除重複行 - Partition By如何影響此查詢?