我有一個數據集在一個字段中有一些空值。當我嘗試運行線性迴歸時,它將字段中的整數視爲類別指示符,而不是數字。如何忽略R中的空值?
例如,爲不包含空值的字段...
summary(lm(rank ~ num_ays, data=a)),
返回:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.607597 0.019927 532.317 < 2e-16 ***
num_ays 0.021955 0.007771 2.825 0.00473 **
但是當我運行與空值的字段相同的模型,我得到:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.225e+01 1.070e+00 11.446 < 2e-16 ***
num_azs0 -1.780e+00 1.071e+00 -1.663 0.09637 .
num_azs1 -1.103e+00 1.071e+00 -1.030 0.30322
num_azs10 -9.297e-01 1.080e+00 -0.861 0.38940
num_azs100 1.750e+00 5.764e+00 0.304 0.76141
num_azs101 -6.250e+00 4.145e+00 -1.508 0.13161
什麼是最好的和/或最有效的方式來處理這個,什麼是權衡?
說到空你有'NA'記住? 'num_azs'是否是'因素'有可能?看起來像不是我清理的數據... – Marek 2010-10-25 19:50:43
我不認爲這是一個因素。 num_ays和num_azs都來自MySQL導出。兩者的字段類型都是整數,但num_azs可以包含空值。 – Dan 2010-10-25 19:56:23
摘要(一)說你的數據列是什麼?我猜一個非數字值導致轉換爲因子。解決方案是使用as.numeric(as.character(foo))轉換爲數字 – Spacedman 2010-10-25 20:52:32