的主要目標如下:特徵預處理scikit學習
1)應用StandardScaler
到連續變量
2)應用LabelEncoder
和OnehotEncoder
到分類變量
連續變量需要縮放,但同時一些分類變量也是整數類型。應用StandardScaler
會導致不良影響。
另一方面,StandardScaler
會縮放基於整數的分類變量,這也不是我們想要的。
由於連續變量和分類變量混合在一個Pandas
DataFrame中,建議的工作流程解決此類問題的方式是什麼?
最好的例子來說明我的觀點是Kaggle Bike Sharing Demand數據集,其中season
和weather
是整數分類變量
由於'StandardScalar'按列方式工作,我不認爲它會對單熱編碼變量做任何事情。您是否嘗試過爲單個數據框做上述操作?你有沒有發現你似乎遇到麻煩的行爲? –
單熱編碼變量與整數類型的變量相同。如果你將它們連接在一起,爲什麼你會期望它們做任何不同的事情?如果它們的行爲方式相同,那麼如果存在一個不是分類但數字的變量,並且其值爲1或0,然後對其使用縮放器,則會發生什麼? –
我試過了,顯然它確實擴展了一切,不管它們的值是什麼。你能否在這個Bike數據集上應用'StandardScaler()。fit_transform(df)'並告訴我其他情況? –