2012-04-02 106 views
0

我想查看是否在我的數據組中的差異意味着統計顯着性。比較組平均值與Chi-Squared

如何運行與數據卡方檢驗在這樣

Country  Year  Value 
Country A  1   2 
Country A  2   3 
Country A  3   3 
Country B  1   6 
Country B  2   7 
Country B  3   6 
Country C  1   9 
Country C  2   8 
Country C  3   9 

長格式,我不知道如何在同一個變量,但是針對不同人羣(國家運行卡方檢驗)。

感謝

+0

什麼是「價值」列的值? – John 2012-04-03 01:19:08

回答

1

您需要從長格式重新格式化您的數據轉換成這樣的大多數統計檢驗適當的寬格式。我喜歡reshape2包來幫助解決這些問題。

例如:

> x <- read.table(text = "Country  Year  Value 
+ Country.A  1   2 
+ Country.A  2   3 
+ Country.A  3   3 
+ Country.B  1   6 
+ Country.B  2   7 
+ Country.B  3   6 
+ Country.C  1   9 
+ Country.C  2   8 
+ Country.C  3   9", header = TRUE) 
> 
> 
> library(reshape2) 
> wide <- dcast(x, Country ~ Year, value.var = "Value") 
> wide 
    Country 1 2 3 
1 Country.A 2 3 3 
2 Country.B 6 7 6 
3 Country.C 9 8 9 

現在,它更接近你需要一個chisq.test()或任何其他測試,你可能有興趣在運行的格式。第一行包含Country列其中最有可能需要被排除在分析之外,因爲它是不相關的計數:

> wide[, -1] 
    1 2 3 
1 2 3 3 
2 6 7 6 
3 9 8 9 

我會讓你來決定哪些測試適用於您的數據。

+0

我認爲進一步的思考應該適用於獨立性和測量類型的假設。 R'chisq.test'專爲計數而設計。我們知道這些是重要的嗎?你在測試什麼假設? – 2012-04-02 22:28:42

+0

@Dwin - 很公平,我可能應該在數據從長到寬重新組合後停止...不知道他們在這裏或我們正在尋找什麼後... – Chase 2012-04-02 22:51:19

+0

我正在尋找方法比較羣體意味着同一個變量,並證明不同的手段是統計顯着的。 我的數據有67個國家,每個國家有多個觀察值(10-15)。我想找到一種方法來表明不同國家的平均價值具有統計意義。 – user1288578 2012-04-03 13:21:18

0

您尚未指定要測試的假設,因此應用「卡方測試」尚不可行。 (事實上​​,你指定了一個你不確定實現的特定案例,這表明他可能是功課。)從你提供的數據中可以明顯地看出,行並不是獨立的。您只有三個國家,然後在具有整數值的東西的連續時間間隔內重複測量。這些是否重要?如果這是爲了簡化更豐富的數據集而進行討論的目的,那麼您需要修改您的問題並花費一些時間來構建實際測試案例,以便提供實質性評論。

+0

這是一個良好的響應,但它是一個答案或註釋? – 2012-04-02 22:54:44

+0

我想這是一個答案,作爲保證。有了一個不完整的問題,有時你可以提供的只是一個不完整的答案。 – 2012-04-03 00:45:33

+0

不是什麼大不了的事,但我會說在這種情況下*沒有*答案(即只有評論)是合理的,直到問題完成... – 2012-04-03 02:37:47