熊貓數據框：按列+子組由另一列

我是熊貓數據框新手，希望對以下問題的幫助（類似於this）。我有以下數據：熊貓數據框：按列+子組由另一列

data = {'Cat1': [2,1,2,1,2,1,2,1,1,1,2], 
     'Cat2': [0,0,0,0,0,0,1,1,1,1,1], 
     'values': [1,2,3,1,2,3,1,2,3,5,1]} 
my_data = DataFrame(data)

我想在Cat2執行ttest_ind每一個類別中Cat1類別之間進行區分。

我看到它的方式，我可以將數據通過Cat2每個值分成

cat1_1 = my_data[my_data['Cat1']==1] 
cat1_2 = my_data[my_data['Cat1']==2]

然後循環執行t檢驗：

for cat2 in [0,1]: 

    subset_1 = cat1_1[cat1_1['Cat2']==cat2] 
    subset_2 = cat1_2[cat1_2['Cat2']==cat2] 

    t, p = ttest_ind(subset_1['values'], subset_2['values'])

但這似乎真的令人費解。有沒有更簡單的解決方案，可能是groupby？非常感謝！

來源

2016-02-22 Lisa

你可以嘗試在兩個DFS合併 – galaxyan

@galaxyan你可否透露您的意思嗎？謝謝！ – Lisa

http://pandas.pydata.org/pandas-docs/stable/merging.html它可能有幫助。 – galaxyan

IIUC您可以通過Cat2柱和apply功能f嘗試groupby：

import pandas as pd 
from scipy.stats import ttest_ind 

data = {'Cat1': [2,1,2,1,2,1,2,1,1,1,2], 
     'Cat2': [0,0,0,0,0,0,1,1,1,1,1], 
     'values': [1,2,3,1,2,3,1,2,3,5,1]} 
my_data =pd.DataFrame(data) 
print my_data 
    Cat1 Cat2 values 
0  2  0  1 
1  1  0  2 
2  2  0  3 
3  1  0  1 
4  2  0  2 
5  1  0  3 
6  2  1  1 
7  1  1  2 
8  1  1  3 
9  1  1  5 
10  2  1  1 

def f(x): 
    #print x 
    cat1_1 = x[x['Cat1']==1] 
    cat1_2 = x[x['Cat1']==2] 

    t, p = ttest_ind(cat1_1['values'], cat1_2['values']) 
    return pd.Series({'a':t, 'b':p})  

print my_data.groupby('Cat2').apply(f) 
      a   b 
Cat2     
0  0.00000 1.000000 
1  2.04939 0.132842

來源

2016-02-22 18:47:19 jezrael

謝謝！就目前爲止我可以判斷的情況，這種方法是有效的 – Lisa

熊貓數據框：按列+子組由另一列

回答

相關問題