修剪決策樹

當訓練集中的例子太少時，如何使用ID3修剪決策樹的構建。修剪決策樹

我不能把它分成訓練，驗證和測試集，所以這是不可能的。

是否有任何可能使用的統計方法或類似的東西？

2012-01-13 Lopina

是的，當您的數據量較低時，可以使用交叉驗證來訓練和修剪您的數據集。這個想法很簡單。你把你的數據分成N組，並用N-1個樹訓練你的樹。最後一組用作修剪測試集。然後你選擇另外一組N套離開，並做同樣的事情。重複此操作，直到你排除所有集合。這意味着你會建立N棵樹。您將使用這N棵樹來計算樹的最佳大小，然後使用計算對整個數據集進行訓練，以修剪該樹。這比我在這裏可以有效描述的要複雜得多，但是這裏有一篇關於如何將交叉驗證適配到ID3的文章。

dW1eIKA87pO6eAVtIow「> http://www.google.com/url?sa=t & RCT = j的& Q = & ESRC = S &源=幅& CD = 1 & VED = 0CE4QFjAA & URL = HTTP％ 3A％2F％2Fjmlr.csail.mit.edu％2Fpapers％2Fvolume3％2Fblockeel02a％2Fblockeel02a.ps & EI = iwDcT8XfE5KY8gT2oYW7Cg & USG = AFQjCNFHY29x3_dW1eIKA87pO6eAVtIow

大量的研究已經在它就是交叉驗證的正確分割，並進行被發現N = 10給出了給定額外處理時間的最佳結果。交叉驗證增加了你的計算（N次），但是當數據量較小時，它可以克服少量樣本。而且由於你沒有太多的數據，這意味着使用交叉驗證並不是那麼糟糕的計算。

來源

2012-06-16 03:51:32 chubbsondubs

回答

相關問題