2012-10-12 75 views
6

我不太明白這個輸出中的p值是什麼意思。我不是說p值就是這樣,但在這種情況下。比較兩個線性模型與R中的anova()

> Model 1: sl ~ le + ky 
> Model 2: sl ~ le 
    Res.Df  RSS Df Sum of Sq  F Pr(>F) 
1  97 0.51113        
2  98 0.51211 -1 -0.00097796 0.1856 0.6676 

我得到了類似的東西,現在我想知道哪種模型更適合。 由於只有一個而不是兩個p值,我感到困惑。 我得到使用摘要(模型1)或摘要(模型2)現在

不同的p值,如果

> fm2<-lm(Y~X+T) 

(T是我的指針變量)和

> fm4<-lm(Y~X) 

,如果我做

> anova(fm2,fm4) 

這測試零假設H0: alpha1==alpha2(Ha: alpha1!=alpha2) C(阿爾法是我的截距) 所以測試是否它最好是有一個截距(=>alpha1==alpha2),或兩個截距(alpha1!=alpha2

在這種情況下,我們現在顯然拒絕零假設,因爲p值是0.6676。

這意味着我們應該堅持使用模型fm4,因爲它更適合我們的數據。

我是否得出正確的結論?我盡我所能,但我不確定p值是什麼意思。因爲只有這樣,所以我認爲這可能意味着什麼。 有人可以清理一下嗎?

回答

5

你的意思是「會不是顯然拒絕零假設」(而不是「現在顯然拒絕」)?考慮到你的其他問題,這似乎更有意義。

只有一個p值,因爲有兩個模型進行比較,因此只有一個比較(零假設與替代,或真的在這種情況下爲零假設與未指定的替代)。它聽起來像你上面說的,好像le是連續的,而ky是一個分類預測器,在這種情況下,你正在比較一個斜率和一個截距模型(如你所說)一個單斜率和兩個截距。由於p值相對較大,這意味着這些數據不能爲ky的累加效應提供證據。更簡單的模型通常會更合適(雖然要小心這個結論,因爲p值是爲了測試假設而不是在模型中進行選擇)。

您獲得的每個單獨模型的summary()的p值是每個模型中每個參數的影響的p值,取決於該模型中的所有其他參數。 如果您的數據是完美平衡的(這在迴歸設計中不太可能),您應該從summaryanova得到相同的答案,否則anova的結果通常更可取。

這個問題可能更適合http://stats.stackexchange.com,因爲它實際上是關於統計解釋而不是編程......