優化決策樹參數在RapidMiner

我有一個相當大的數據集（770K記錄，2K屬性，幾乎所有的這些屬性都是二項式但在整數的形式）的工作，優化決策樹參數在RapidMiner

我想在數據應用決策樹用10倍交叉驗證，但我有一些問題：

1.爲什麼不決策樹（例如具有深度10）花費這麼多的時間接受培訓？實際上，在訓練樹之前，我將數據（因爲它不平衡）平衡到原始大小的40％（〜320K記錄），但它仍然需要很長時間，是否有任何其他版本的決策樹導致相同的性能和需要更少的時間？（是否在二項式形式使屬性使得它更快？）

我2.How可以優化決策樹的參數？我應該對整個X驗證進行優化嗎？

來源

2012-12-29 Arian Hosseinzadeh

您是否有將二進制屬性標記爲整數的理由？對於二項屬性，歸納確實更快，否則樹歸納算法需要爲每個節點的每個屬性找到最佳分割。

需要多長時間來誘導這樣一棵樹？您使用哪種算法？

關於參數優化：需要在每個X驗證循環內的單獨集合上完成。看到這個工作流程中如何做到這一點的例子：http://www.myexperiment.org/workflows/3263.html

來源

2013-01-01 15:28:05 tempi

所以你的意思是，我們必須以優化的X驗證運營商裏面提供的培訓數據決策樹的參數，我有什麼參數進行優化？（我希望最小數量的參數要優化，因爲組合的數量增長非常快）我使用決策樹（沒有特殊版本）我想最小增益（我使用gini索引）置信度和預編程替代數量是無效的，我操縱「分割的最小尺寸」和「最大深度」，但它需要很多時間，比如對於770K的記錄和350個屬性，需要1個小時才能完成一個DT –

是否可以這麼長，因爲我具有整數屬性而不是二項式的？ –

優化決策樹參數在RapidMiner

回答

相關問題