Q

可以sklearn隨機森林直接處理分類特徵？

2014-07-12 147 views 32 likes

32

說我有一個明確的功能，顏色，其採用的值可以sklearn隨機森林直接處理分類特徵？

[「紅」，「藍」，「綠」，「橙」]，

，我想用它來預測某事在隨機森林裏。如果我對它進行一次熱編碼（即將其更改爲四個虛擬變量），我如何告訴sklearn這四個虛擬變量實際上是一個變量？具體來說，當sklearn隨機選擇要在不同節點上使用的功能時，它應該包括紅色，藍色，綠色和橙色虛擬的一起，或者它不應該包含任何一個。

我聽說沒有辦法做到這一點，但我會想象必須有一種方法來處理分類變量，而不必將其編碼爲數字或類似的東西。

2014-07-12 hahdawg

+0

自2014年起，這對於sklearn來說是一個有用的和非常長期的增強請求。一個考慮是他們是否應該優先實施新的[pandas Categorical]（http://pandas.pydata.org/pandas-docs/stable /categorical.html）或通用numpy。 – smci

A

回答

23

不，沒有。有人的working on this和修補程序可能會合併到主線有一天，但現在不支持scikit學習中的分類變量，除了虛擬（單熱）編碼。

2014-07-12 17:01:13

+0

如果這最終得到實施，十個大拇指。就我個人而言，我會優先考慮大熊貓的分類，而核心維護者則需要其他方法。 – smci

6

您必須將分類變量變爲一系列虛擬變量。是的，我知道它很煩人，似乎沒有必要，但這就是sklearn的作品。如果您正在使用熊貓，請使用。使用pd.get_dummies，它工作得很好。

2016-02-18 02:36:12

+3

如果在訓練和推理中存在相同的唯一值，它的工作非常好，因此它不可靠。 – marbel

5

接受分類輸入的隨機森林（以及許多其他機器學習算法）的大多數實現不是自動爲您編碼分類特徵，就是使用變爲computationally intractable for large numbers of categories的方法。

A notable exception is H2O。 H2O具有非常直接處理分類數據的efficient method，這通常使其在基於樹的方法上具有優勢，該方法需要單熱編碼。

This article by Will McGinnis has a very good discussion of one-hot-encoding and alternatives。

This article by Nick Dingwall and Chris Potts has a very good discussion about categorical variables and tree based learners。

2017-03-27 05:44:31 denson

相關問題