所以即時編寫決策樹程序。 可以說我有一個1000個實例的數據集。 據我瞭解 - 交叉驗證我將數據集分成900-100組。每次使用 使用不同的900組創建樹和100測試它決策樹交叉驗證問題
我不明白的是這些問題: 1.哪棵樹我用作我的最終決策樹(選擇一個與最小錯誤不是一個好的選擇,因爲我猜它可能是因爲過度擬合) 2.交叉驗證僅用於估計最終樹中的錯誤嗎? 3.我發現了一些關於交叉驗證的不同算法,有些使用了相同的分裂準則,有些使用了不同的算法來選擇最佳的樹 - 你能指點我一個有信息的好地方,所以我可以弄清楚什麼是什麼我需要?或解釋你的自我?
謝謝!
我知道最好的樹應該包含最好的屬性,它將數據很好地分開......這就是決策樹的要點。有很多方法可以決定哪個屬性是最好的(即增益比率,信息增益,基尼指數等) - 我的問題是 - 如何交叉驗證幫助我,如果它確實,選擇我決定分裂的方式標準 – ABR 2013-02-08 13:22:51
http://stackoverflow.com/questions/2314850/help-understanding-cross-validation-and-decision-trees?rq=1 – ogzd 2013-02-08 13:24:33