2014-01-20 27 views
1

我一直在使用R的aov()函數的年齡。我總是通過.csv文件輸入我的數據,並且從未困擾將任何變量轉換爲「因素」。什麼時候需要/適當的因素在r

最近我做了這些,將變量轉換爲因子並重復aov(),並且aov()的結果現在有所不同。

我的數據是訂購的類別,0,1,2。無序或有序水平沒有區別,兩者都不同於使用變量而不轉換爲因子。

因素總是合適嗎?爲什麼這種轉換會造成如此大的差異?

請讓我知道是否有必要提供更多信息以使我的問題更清晰。

回答

2

這實際上是一個統計問題,但是,它可以有所作爲。如果R把變量當作數字來處理,那麼在一個模型中它只能解釋一個自由度。如果數字的等級爲0,1,2,那麼它將使用兩個自由度。這會改變模型的統計結果。如果您使用數字編碼的多個因子或變量具有多個級別,則數字和因子表示之間模型複雜性的差異顯着增加。包含變量的解釋總和的平方增加是否具有統計顯着性取決於增加的幅度和模型複雜性的變化。使用類變量的數字表示會增加模型的複雜度,但是類變量會使用自由度。因此,對於模型擬閤中的相同改進,您可能處於這樣一種情況:對變量進行編碼或改變數字是否會對響應產生顯着影響。

概念上,基於數值或因子的模型不同;因爲你有一小組已被抽樣的小組或類別,目的是看這些分組之間的反應是否不同。該模型固定在一組樣本組上;你只能預測那些觀察到的羣體。使用數字,你是說響應隨着數字變量線性變化。從擬合的模型中,您可以預測未觀察到的數值變量的一些新值。 (請注意,對固定因素的推斷假設您正在擬合一個固定效應模型,將一個因子變量作爲一個隨機效應處理,將焦點從確切的一組樣本集中移動到總體中的所有組的集合上哪些樣品被採取。)

相關問題