0
我有一個相當大的數據集(770K記錄,2K屬性,幾乎所有的這些屬性都是二項式但在整數的形式)的工作,優化決策樹參數在RapidMiner
我想在數據應用決策樹用10倍交叉驗證,但我有一些問題:
1.爲什麼不決策樹(例如具有深度10)花費這麼多的時間接受培訓?實際上,在訓練樹之前,我將數據(因爲它不平衡)平衡到原始大小的40%(〜320K記錄),但它仍然需要很長時間,是否有任何其他版本的決策樹導致相同的性能和需要更少的時間? (是否在二項式形式使屬性使得它更快?)
我2.How可以優化決策樹的參數?我應該對整個X驗證進行優化嗎?
所以你的意思是,我們必須以優化的X驗證運營商裏面提供的培訓數據決策樹的參數,我有什麼參數進行優化? (我希望最小數量的參數要優化,因爲組合的數量增長非常快)我使用決策樹(沒有特殊版本)我想最小增益(我使用gini索引)置信度和預編程替代數量是無效的,我操縱「分割的最小尺寸」和「最大深度」,但它需要很多時間,比如對於770K的記錄和350個屬性,需要1個小時才能完成一個DT –
是否可以這麼長,因爲我具有整數屬性而不是二項式的? –