說我有一個明確的功能,顏色,其採用的值可以sklearn隨機森林直接處理分類特徵?
[「紅」,「藍」,「綠」,「橙」],
,我想用它來預測某事在隨機森林裏。如果我對它進行一次熱編碼(即將其更改爲四個虛擬變量),我如何告訴sklearn這四個虛擬變量實際上是一個變量?具體來說,當sklearn隨機選擇要在不同節點上使用的功能時,它應該包括紅色,藍色,綠色和橙色虛擬的一起,或者它不應該包含任何一個。
我聽說沒有辦法做到這一點,但我會想象必須有一種方法來處理分類變量,而不必將其編碼爲數字或類似的東西。
自2014年起,這對於sklearn來說是一個有用的和非常長期的增強請求。一個考慮是他們是否應該優先實施新的[pandas Categorical](http://pandas.pydata.org/pandas-docs/stable /categorical.html)或通用numpy。 – smci