2012-11-28 47 views
0

我開始應用數據挖掘算法。現在我研究決策樹。互聯網上有很多關於C4.5和ID3算法的資料,但我想知道這兩種算法的實際細節,優缺點和一些技術細節。如果有這樣的材料的鏈接,我會很高興注重實用細節的C4.5和ID3算法

回答

3

兩個優點決策樹是,他們能夠處理噪聲數據以及它們所提供的數據,直觀的解釋(你可以很容易地看到被認爲其中大部分屬性重要的樹)。一個反面的是,他們是貪婪算法(他們選擇的分支,而不用考慮它如何影響最終的分類精度屬性),所以他們不一定產生最佳的樹結構。決策樹很容易包含在集成方法中,例如random forests

C4.5是ID3的改進,使它能夠處理實值屬性(ID3使用分類屬性)和缺少的屬性。互聯網上有兩種算法的描述。維基百科對ID3C4.5都有描述。有關這兩種算法的另一種說明,您可能會開始here