想象我有一個像多元線性迴歸
df <- data.frame(y=c(11:16), x1=c(23,NA,27,20,20,21), x2=c(NA,9,2,9,7,8))
df
y x1 x2
1 11 23 NA
2 12 NA 9
3 13 27 2
4 14 20 9
5 15 20 7
6 16 21 8
的數據集。如果我進行多元線性迴歸,我得到
m <- lm(y~x1+x2, data=df)
summary(m)
Call:
lm(formula = y ~ x1 + x2, data = df)
Residuals:
3 4 5 6
-1.744e-01 -1.047e+00 -4.233e-16 1.221e+00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 19.72093 27.06244 0.729 0.599
x1 -0.24419 0.93927 -0.260 0.838
x2 0.02326 1.01703 0.023 0.985
Residual standard error: 1.617 on 1 degrees of freedom
(2 observations deleted due to missingness)
Multiple R-squared: 0.4767, Adjusted R-squared: -0.5698
F-statistic: 0.4556 on 2 and 1 DF, p-value: 0.7234
在這裏,我們有2個觀測( 1和2)由於缺失而被刪除。
爲了減少缺失數據的影響,計算2個不同的簡單線性迴歸是否明智?
I.e.
m1 <- lm(y~x1, data=df)
m2 <- lm(y~x2, data=df)
在這種情況下,對於每個模型,我們將只有1個觀察因缺失而被刪除。