大熊貓獲取值的頻率上多列

我有這樣的數據幀df的：大熊貓獲取值的頻率上多列

df = pd.DataFrame({'c':[1,1,2,2,3,3],'L0':['a','a','b','c','d','e'],'L1':['a','b','c','e','f','e']})

現在我試圖讓每個值的列L0和L1爲c每個值的頻率。預期結果將是：

c a b c d e f 
1 3 1 0 0 0 0 
2 0 1 2 0 1 0 
3 0 0 0 1 2 1

我以爲我可以使用類似：

df.pivot_table(index='c', columns=np.unique(['L0','L1']), aggfunc=f)

，但我不能想出如何形容f應該能夠在得到value_counts()功能多列。

來源

2016-05-17 Fabio Lamanna

你可以它通過使用crosstab方法默認計算所示因子的頻率表：

>>> df_1 = pd.crosstab(df.c, df.L0) 
>>> df_2 = pd.crosstab(df.c, df.L1) 

>>> df_1.add(df_2, fill_value=0) 

    a b c d e f 
c     
1 3 1 0 0 0 0 
2 0 1 2 0 1 0 
3 0 0 0 1 2 1

來源

2016-05-17 11:48:25

Brillian牛逼！謝謝：） – knagaev

沒有試圖描述F，但希望爲您解決問題的其他方式

In [356]: df.set_index('c').stack().reset_index().groupby(['c', 0]).count().unstack().fillna(0) 
Out[356]: 
    level_1       
0  a b c d e f 
c         
1  3.0 1.0 0.0 0.0 0.0 0.0 
2  0.0 1.0 2.0 0.0 1.0 0.0 
3  0.0 0.0 0.0 1.0 2.0 1.0

來源

2016-05-17 10:02:39 knagaev

編輯：這是稍微簡單：

In[48]: df.groupby('c').apply(lambda df1: 
      df1.drop('c', axis=1).unstack().value_counts().to_frame().transpose() 
     ).reset_index(level=1, drop=True).fillna(0)

的解釋見下文。

你要找的功能是groupby，不pivot。然後，您可以分別在每個數據幀上使用value_counts，按c值分組。

這是接近你想要的功能：

In[39] : df.groupby('c').apply(lambda df1: 
      df1.drop('c', axis=1).apply(pd.Series.value_counts).transpose() 
     ) 
Out[39]: 
     a b c d e f 
c       
1 L0 2 NaN NaN NaN NaN NaN 
    L1 1 1 NaN NaN NaN NaN 
2 L0 NaN 1 1 NaN NaN NaN 
    L1 NaN NaN 1 NaN 1 NaN 
3 L0 NaN NaN NaN 1 1 NaN 
    L1 NaN NaN NaN NaN 1 1

爲了值相加，最終的結果是令人驚訝的複雜：

In[46]: df.groupby('c').apply(lambda df1: 
      df1.drop('c', axis=1).apply(pd.Series.value_counts).transpose().sum().to_frame().transpose() 
     ).reset_index(level=1, drop=True).fillna(0) 
Out[46]: 
    a b c d e f 
c     
1 3 1 0 0 0 0 
2 0 1 2 0 1 0 
3 0 0 0 1 2 1

來源

2016-05-17 10:11:11 IanS

大熊貓獲取值的頻率上多列

回答

相關問題