2012-12-29 78 views
0

我有一個相當大的數據集(770K記錄,2K屬性,幾乎所有的這些屬性都是二項式但在整數的形式)的工作,優化決策樹參數在RapidMiner

我想在數據應用決策樹用10倍交叉驗證,但我有一些問題:

1.爲什麼不決策樹(例如具有深度10)花費這麼多的時間接受培訓?實際上,在訓練樹之前,我將數據(因爲它不平衡)平衡到原始大小的40%(〜320K記錄),但它仍然需要很長時間,是否有任何其他版本的決策樹導致相同的性能和需要更少的時間? (是否在二項式形式使屬性使得它更快?)

我2.How可以優化決策樹的參數?我應該對整個X驗證進行優化嗎?

回答

1

您是否有將二進制屬性標記爲整數的理由? 對於二項屬性,歸納確實更快,否則樹歸納算法需要爲每個節點的每個屬性找到最佳分割。

需要多長時間來誘導這樣一棵樹?您使用哪種算法?

關於參數優化:需要在每個X驗證循環內的單獨集合上完成。看到這個工作流程中如何做到這一點的例子:http://www.myexperiment.org/workflows/3263.html

+0

所以你的意思是,我們必須以優化的X驗證運營商裏面提供的培訓數據決策樹的參數,我有什麼參數進行優化? (我希望最小數量的參數要優化,因爲組合的數量增長非常快)我使用決策樹(沒有特殊版本)我想最小增益(我使用gini索引)置信度和預編程替代數量是無效的,我操縱「分割的最小尺寸」和「最大深度」,但它需要很多時間,比如對於770K的記錄和350個屬性,需要1個小時才能完成一個DT –

+0

是否可以這麼長,因爲我具有整數屬性而不是二項式的? –