如果我在具有多個變量的數據集中有一列,我將如何着手創建這些虛擬變量。R - 具有大量虛擬變量的模型
例如: 可以說我有一個名爲color的列,它有:紅色,綠色,黃色,藍色,粉紅色和灰色作爲汽車顏色的選項。
將這些變量轉化爲因子的最佳方法是什麼?不用手動創建一堆虛擬變量?
編輯: 所以我做了什麼格雷格建議,這就是我的。我想知道NA的輸出,但不確定它爲什麼在那裏。
> data$Trim<-factor(data$Trim)
> data$Model<-factor(data$Model)
> data$Type<-factor(data$Type)
> data=cbind(Price,Mileage,Buick,Cadillac,Chevrolet,Pontiac,SAAB,Saturn,Model,Trim,Type,Cylinder,Liter,Doors,Cruise,Sound,Leather)
> fit <- lm(Price ~ Mileage+Buick+Cadillac+Chevrolet+Pontiac+SAAB+Saturn+Model+Trim+Type+Cylinder+Liter+Doors+Cruise+Sound+Leather, x=TRUE)
> summary(fit)
然後我得到一個消息「係數:(21不是因爲奇點的定義)」和用於一些變量的輸出爲NA。
你真的沒有理由自己製作虛擬變量。你究竟想要做什麼?很可能你只需要將你的變量轉化爲因子,然後在模型中使用它,而不是直接轉換成虛擬變量--R會爲你做轉換。 – Dason
你是怎麼做到的? – John
考慮懲罰迴歸? –