1
當R使用分類變量執行迴歸時,它實際上是虛擬編碼。也就是說,其中一個等級被忽略作爲基準或參考,並且迴歸公式包括所有其他等級的虛擬變量。但是哪一個呢,R選擇作爲參考,以及我如何影響這個選擇?R中的分類變量 - R選擇哪一個作爲參考?
具有四個電平(從UCLA's IDRE)實施例的數據:
hsb2 <- read.csv("http://www.ats.ucla.edu/stat/data/hsb2.csv")
summary(lm(write ~ factor(race), data = hsb2))
# level 1 is the reference level
hsb2.ordered <- hsb2[rev(order(hsb2$race)),]
summary(lm(write ~ factor(race), data = hsb2.ordered))
# level 1 is still the reference level