2016-11-16 178 views
-2

我想了解R.迴歸我試圖解決一個鍛鍊至極擁有100個隨機男女數據集是這樣的:迴歸中的R與分類變量

sex  sbp  bmi 
male  130  40.0 
female 126  29.0 
female 115  25.0 
male  120  33.0 
female 128  34.0 
... 

我想一個數字摘要(0)繪製了sbp和bmi(1)之間的關係,並用R^2(2)估計了beta1,beta2和sigma參數。然後,檢查模型(3)的善良,並獲得置信區間(4)..

我認爲性是分類變量,所以這裏是我的代碼:

as.numeric(framingham$sex) - 1 
apply(framingham, 2, class) 

#0 
framingham$sex <- factor (framingham$sex) 
levels (framingham$sex) <- c("female", "male") 
resultadoNumerico <- compareGroups(~., data = framingham) 
resumenNumerico <- createTable(resultadoNumerico) 
resumenNumerico 

# 1 
framinghamMatrix <- data.matrix(framingham) 
pairs(framinghamMatrix) 
cor(framinghamMatrix) 

#2 
regre <- lm(sbp ~ bmi+sex, data = framingham) 
regreSum <- summary(regre) 
regreSum 
# Sigma 
regreSum$sigma 
# Betas 
regreSum$coefficients 

#3 
plot(framingham$bmi, framingham$sbp, xlab = "SBP", ylab = "BMI") 
abline (regre) 

但我認爲我沒有做正確的事情...你能幫我嗎?在此先感謝...

+1

我還沒有運行代碼,但你能說你爲什麼認爲你做錯了嗎? –

+0

原因然後我需要比較男性和女性迴歸直線和模型的總結只給出一個:係數: 估計標準。錯誤t值Pr(> | t |) (截距)79.0624 11.0716 7.141 1.71e-10 *** bmi 1.9338 0.3965 4.877 4.21e-06 *** sexfemale 3.0395 3.7731 0.806 0.422 –

+6

您只能得到1因爲另一個級別是參考級別,所以它是一個二級因子的級別。如果你們倆都陷入了「虛擬變量陷阱」,那麼結果將毫無意義。 http://www.algosome.com/articles/dummy-variable-trap-regression.html –

回答

0

要檢查變量之間的關係,請嘗試從心理庫中調用一個名爲pairs.panels的圖。它給出了分佈,散點圖和相關係數。

library(psych) 
pairs.panels(framingham) 

此處的性別變量是分類的,因此將其轉換爲因子,然後將其作爲輸入提供給您的線性迴歸模型。按字母順序的因素第一級將成爲您的參考水平,因此在模型的總結,你可以看到比基準級對方只的水平(在這種情況下,女性的基礎水平引用)

framingham$sex<-as.factor(framingham$sex) 

現在創建你的線性模型。

model <- lm(sbp ~ bmi+sex, data = framingham) 
model 
summary(model) 

的總結出的係數,攔截,標準誤差(95%置信度),t值和p值(其指示的變量的意義),多個R平方(擬合優度),調整R平方(擬合優度調整模型的複雜性)等

+0

是的,但是然後...我怎樣才能比較男性和女性之間的直線?和預測?對比beta1 = 1.75的假設?我在一團糟:( –

0

我做了性別-1的分類變量:

regre <- lm(sbp ~ bmi+sex***-1***, data = framingham) 
regreSum <- summary(regre) 
regreSum 

現在我獲得

Call: 
lm(formula = sbp ~ bmi + sex - 1, data = framingham) 

Residuals: 
    Min  1Q Median  3Q  Max 
-28.684 -13.025 -1.314 8.711 73.476 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
bmi   1.9338  0.3965 4.877 4.21e-06 *** 
sexhombre 79.0624 11.0716 7.141 1.71e-10 *** 
sexmujer 82.1020 10.5184 7.806 6.93e-12 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.48 on 97 degrees of freedom 
Multiple R-squared: 0.9813, Adjusted R-squared: 0.9808 
F-statistic: 1700 on 3 and 97 DF, p-value: < 2.2e-16 

也許我會以正確的方式?