2012-01-13 122 views
1

當訓練集中的例子太少時,如何使用ID3修剪決策樹的構建。修剪決策樹

我不能把它分成訓練,驗證和測試集,所以這是不可能的。

是否有任何可能使用的統計方法或類似的東西?

回答

2

是的,當您的數據量較低時,可以使用交叉驗證來訓練和修剪您的數據集。這個想法很簡單。你把你的數據分成N組,並用N-1個樹訓練你的樹。最後一組用作修剪測試集。然後你選擇另外一組N套離開,並做同樣的事情。重複此操作,直到你排除所有集合。這意味着你會建立N棵樹。您將使用這N棵樹來計算樹的最佳大小,然後使用計算對整個數據集進行訓練,以修剪該樹。這比我在這裏可以有效描述的要複雜得多,但是這裏有一篇關於如何將交叉驗證適配到ID3的文章。

dW1eIKA87pO6eAVtIow「> http://www.google.com/url?sa=t & RCT = j的& Q = & ESRC = S &源=幅& CD = 1 & VED = 0CE4QFjAA & URL = HTTP% 3A%2F%2Fjmlr.csail.mit.edu%2Fpapers%2Fvolume3%2Fblockeel02a%2Fblockeel02a.ps & EI = iwDcT8XfE5KY8gT2oYW7Cg & USG = AFQjCNFHY29x3_dW1eIKA87pO6eAVtIow

大量的研究已經在它就是交叉驗證的正確分割,並進行被發現N = 10給出了給定額外處理時間的最佳結果。交叉驗證增加了你的計算(N次),但是當數據量較小時,它可以克服少量樣本。而且由於你沒有太多的數據,這意味着使用交叉驗證並不是那麼糟糕的計算。