2017-08-28 17 views
0

我有兩個數據框案例和對照,我執行了兩個樣本t檢驗,如下所示。但我正在從特徵集中進行特徵提取(1299特徵/列),所以我想計算每個特徵的p值。基於爲每個要素生成的p值,我想拒絕或接受零假設。如何使用兩個樣本t檢驗計算R中每個特徵的p值

任何人都可以向我解釋如何解釋下面的輸出,以及如何計算每個功能的p值?

t.test(New_data_zero,New_data_one) 
    Welch Two Sample t-test 

data: New_data_zero_pca and New_data_one_pca 
t = -29.086, df = 182840000, p-value < 2.2e-16 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-0.02499162 -0.02183612 
sample estimates: 
mean of x mean of y 
0.04553462 0.06894849 

回答

1

看看?t.test。 x和y應該是不是矩陣的向量。所以這個函數會自動將它們轉換成矢量。你想這樣做,假設列是功能和兩個矩陣具有相同的特點是什麼,就是:

pvals=vector() 
for (i in seq(ncol(New_data_zero))){ 
pvals[i]=t.test(New_data_zero[,i], New_data_one[,i])$p.value 
} 

然後你可以看一下pvals(可能是在對數標度),並經過多重假設檢驗校正(見? p.adjust)。

0

我們還要解決這種方法的一個極其糟糕的想法,即要找出您的功能之間的差異。即使這1299個特徵之間的所有影響都是零字節,您將在所有可能的1299個雙向比較中找到* 0.05的顯着結果,這使得該策略實際上毫無意義。我強烈建議看看介紹性統計資料,特別是關於家庭式I類錯誤率的部分,然後再繼續。

相關問題