2017-03-17 63 views
1

我想確定兩個接口之間是否存在顯着差異。我有一個文本文件,看起來像這樣:在R中的重要性測試

group conversion 
A 0 
A 0 
A 1 
A 0 
A 0 
A 1 
A 1 
A 0 
A 0 
A 1 
A 1 
A 1 
A 1 
A 1 
A 1 
A 0 
A 0 
A 0 
A 0 
A 0 
A 1 
A 0 
A 1 
A 0 
A 1 
A 1 
A 0 
A 1 
A 0 
A 1 
A 1 
A 0 
A 0 
A 0 
A 0 
A 0 
A 1 
A 1 
A 0 
A 0 
A 1 
A 1 
A 0 
A 1 
A 1 
A 0 
A 0 
A 0 
A 1 
A 1 
A 0 
A 0 
A 0 
A 0 
A 1 
A 1 
A 0 
A 1 
A 1 
A 1 
A 1 
A 1 
A 1 
A 1 
A 0 
A 0 
A 0 
A 1 
A 1 
A 0 
A 1 
A 1 
A 0 
A 0 
A 1 
A 0 
A 0 
A 0 
A 1 
A 0 
A 1 
A 1 
A 1 
A 0 
A 0 
A 0 
A 0 
A 0 
A 0 
A 0 
A 1 
A 1 
A 1 
A 1 
A 1 
A 1 
A 0 
A 0 
A 1 
A 1 
B 0 
B 0 
B 1 
B 0 
B 0 
B 0 
B 1 
B 0 
B 0 
B 0 
B 0 
B 1 
B 0 
B 1 
B 0 
B 1 
B 0 
B 1 
B 0 
B 0 
B 1 
B 1 
B 1 
B 1 
B 1 
B 1 
B 1 
B 1 
B 1 
B 0 
B 0 
B 1 
B 0 
B 0 
B 1 
B 0 
B 0 
B 0 
B 0 
B 0 
B 1 
B 1 
B 0 
B 0 
B 0 
B 0 
B 1 
B 1 
B 0 
B 0 
B 1 
B 0 
B 1 
B 0 
B 0 
B 0 
B 1 
B 1 
B 1 
B 1 
B 0 
B 1 
B 0 
B 0 
B 1 
B 1 
B 0 
B 0 
B 0 
B 0 
B 0 
B 0 
B 0 
B 1 
B 0 
B 0 
B 1 
B 0 
B 0 
B 0 
B 0 
B 0 
B 0 
B 0 
B 0 
B 1 
B 1 
B 1 
B 0 
B 0 
B 0 
B 0 
B 1 
B 0 
B 1 
B 1 
B 1 
B 1 
B 1 
B 1 

現在我需要找出我應該使用哪種方法,而這樣做。到目前爲止,我已經嘗試了韋爾奇的兩樣本T檢驗方法,我認爲這是正確的。但是,這是確定是否存在重要性的正確方法? 順便說一下,顯着性水平是5%。

這是我的代碼:

# Load in the values from "test.txt" 
dat = read.delim(「test.txt」) 

# Calculate the amount of unique values 
length(unique(dat$group)) 

# Calculate the p-value 
t.test(dat$conversion ~ dat$group) 

上的p值的輸出是:0.2586,這是大於0.05,這應該是指沒有意義的,對不對?或者我做錯了什麼?我在R.

+0

您有一個二元結果變量,所以此方法沒有用,請考慮運行二項式測試。請參閱http://stats.stackexchange.com/questions/133392/how-can-i-run-at-test-in-this-situation-of-two-processes-having-binary-outcomes – timfaber

+0

你說這沒用,但它仍然正確嗎?我的意思是,這可能不是最好的方法,但我的方法會工作嗎?還是不正確? @timfaber –

+0

我會說這是不正確的,因爲它會產生不可靠的測試結果。這在鏈接中有更詳細的解釋 – timfaber

回答

1

一個初學者,我認爲你正在使用你的數據尋找費舍爾的T檢驗

我創建了一個名爲x數據幀:

head(x) 
    group conversion 
1  A   0 
2  A   0 
3  A   1 
4  A   0 
5  A   0 
6  A   1 

然後我做了一個頻率表:

y<-table(x) 

# and previewed the count table: 
y 
    conversion 
group 0 1 
    A 50 50 
    B 58 42 

然後你運行費舍爾的t檢驗:

fisher.test(y) 

    Fisher's Exact Test for Count Data 

data: y 

p-value = 0.3207 

alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.3989079 1.3135633 

sample estimates: 
odds ratio 
0.7253254 

它甚至告訴你它是用於比較計數。這是一種準確評估兩個分類身份之間差異的方法。