2015-10-09 32 views
0

在R是有2個矢量查找條目,導致低的p值

u <- c(109, 77, 57, 158, 60, 63, 42, 20, 139, 15, 64, 18) 
v <- c(734, 645, 1001, 1117, 1071, 687, 162, 84, 626, 64, 218, 79) 

我想測試H:uv是獨立的,所以我運行一個卡方檢驗:

chisq.test(as.data.frame(rbind(u,v)) ) 

,並得到非常低的p值,這意味着我可以拒絕H,這意味着uv不是獨立的。

但是當我鍵入

chisq.test(u,v) 

我得到0.23的p值,這意味着我可以接受H. 這兩個測試中的一個,我應該選擇?

此外我想找到這些向量中導致這個低p值的條目。任何想法如何做到這一點?

+2

顯然第二個是正確的'chisq.test(u,v)'。如果你只提供一個data.frame,則執行一個適合度的測試,並將df作爲一個應急表處理。檢查'?chisq.test'。 – LyzandeR

+0

嗯,121 df似乎是一個很大的代價來支付2x12數字的分配。也許'chisq.test(u,p = v,rescale.p = TRUE)'?你怎麼看,@LyzandeR? –

+0

Hi @RomanLuštrik。我絕對同意,在檢查兩個非常小的向量的獨立性時,121自由度是一個很大的代價。現在,如果你做'chisq.test(u,p = v,rescale.p = TRUE)',你是不是在執行一個合適測試的好處,這與測試獨立性有些不同?這似乎支持[this](http://ww2.coastal.edu/kingw/statistics/R-tutorials/goodness.html),但我可能是錯的。 – LyzandeR

回答

0

檢驗統計量使用平方標準化殘差之和。你可以看看這些值,以瞭解特定值的重要性

m = chisq.test(u, v) 

residuals(m) 
m$stdres 
+0

因此應該考慮具有高絕對值的殘差,應該如何判斷? –