0

在節點上,對於分類要素,我正在嘗試使用全部(2^m -2)/ 2種可能的方法將m個不同的要素值分爲兩組。具有相同特徵值的所有樣本在考慮該特徵時會作爲一組移動到一起。處理決策樹的分類特徵的策略?

問題是,當m爲35(例如國家)時,我將不得不嘗試17萬億次拆分。

處理分類特徵的任何替代方法?

+1

搜索Don Coppersmith等人在「決策樹中分割名義屬性」 (是的,這是[Don Coppersmith](https://en.wikipedia.org/wiki/Don_Coppersmith)。:-) – blazs

回答

0

http://uk.mathworks.com/help/stats/splitting-categorical-predictors-for-multiclass-classification.html?s_tid=gn_loc_drop描述了這個問題。簡而言之:

  • 如果這是一個二元分類問題,根據這一類別的平均響應命令m個值,然後嘗試m-1個的方式來分割該序列。

  • 否則,鏈接只描述啓發式,包括Coppersmith,Hong和Hosking的啓發式。一個典型的例子是傻瓜化:只要嘗試m次分裂,每次分裂由右分支中的一個值和左分支中的m-1值組成。

+0

是的,我正在做二進制分類。我不太明白這意味着什麼「樹可以通過平均響應(對於迴歸)或類別概率對類別進行排序(對於分類)。然後,最優分割是L - 1分割中的一個有序列表「。由於我沒有進行迴歸,我會按類概率排序m值?它是什麼,我如何計算這樣的概率? – Jobs

+0

您能否詳細說明這是什麼意思:「根據此類別的平均響應排序m值」? – Jobs

+1

對於二元分類,可以將響應編碼爲0或1.對於每個m值,計算特徵取此值的所有樣本的響應平均值。這在[0,1]中是真實的。根據這些實數對m值進行排序。 – jrouquie