2017-09-13 103 views
0

在Python/Scikit-learn GLM模型中是否可以像使用分類變量那樣使用分類變量?我確實意識到單熱編碼的另一種選擇。我對這種方法的問題是,我將無法測試整個變量的重要性。我只能測試編碼變量(這是部分的)。Python/Scikitlearn中的分類變量沒有一次性編碼

爲什麼SAS可以處理這樣的變量而不是Python?請指教。

+2

最終,您需要了解SAS在「引擎蓋下」所做的工作:計算機處理的是數值,而不是「類別」 – dartdog

回答

2

它實際上取決於您擁有的數據。例如,如果您可以爲分類變量(序號值)指定某種順序,如low,mediumhigh,則可以將它們分配爲像1,2和3那樣的編號。但是,如果沒有順序,它會變得有點棘手任何。除了單獨編碼,您可以嘗試Helmert Coding Scheme。您還可以閱讀this blog post以獲取更多分析。也有sklearn其他各種編碼方案分類變量:

你可以閱讀更多關於其他Categorical Encoders in Sklearn here