Pandas Groupby壞行

2016-11-07 179 views 2 likes

有沒有辦法強制pandas.groupby返回一個DataFrame？下面是說明我的問題的例子：Pandas Groupby壞行

玩具數據框：

df = pd.DataFrame(data=dict(a=[1, 1, 1, 2, 2, 2, 3, 3, 3], 
          b=[1, 1, 1, 2, 2, 2, 4, 4, 4])

該函數返回預期數據幀：

def fcn_good(d): 
    return pd.Series(data=dict(mean=d.b.mean(), std=d.b.std())) 
print(df.groupby('a').apply(fcn_good))

隨着輸出

mean std 
a 
1 1.0 0.0 
2 2.0 0.0 
3 4.0 0.0

現在這裏是問題。在我的真實代碼中，某些groupby鍵在計算過程中會失敗。我想輸出是：

mean std 
a 
1 1.0 0.0 
2 NaN NaN 
3 4.0 0.0

但是，此代碼

def fcn_bad(d): 
    if int(d.a.unique()[0]) == 2: # Simulate failure 
     return pd.Series() 
    return pd.Series(data=dict(mean=d.b.mean(), std=d.b.std())) 
print(df.groupby('a').apply(fcn_bad))

返回了一系列的替代：

a 
1 mean 1.0 
    std  0.0 
3 mean 4.0 
    std  0.0 
dtype: float64

任何人知道如何得到這個工作？

來源

2016-11-07 kgully

回答

您可以通過a列的unique值使用unstack和reindex，因爲groupby是a列：

def fcn_bad(d): 
    if int(d.a.unique()[0]) == 2: # Simulate failure 
     return pd.Series() 
    return pd.Series(data=dict(mean=d.b.mean(), std=d.b.std())) 
print(df.groupby('a').apply(fcn_bad).unstack().reindex(df.a.unique())) 
    mean std 
a   
1 1.0 0.0 
2 NaN NaN 
3 4.0 0.0

如果與最終df列名添加index到Series像pd.Series(index=['mean','std'])，它的回報DataFrame：

def fcn_bad(d): 
    if int(d.a.unique()[0]) == 2: # Simulate failure 
     return pd.Series(index=['mean','std']) 
    return pd.Series(data=dict(mean=d.b.mean(), std=d.b.std())) 
print(df.groupby('a').apply(fcn_bad)) 
    mean std 
a   
1 1.0 0.0 
2 NaN NaN 
3 4.0 0.0

來源

2016-11-07 15:20:50 jezrael

相關問題

11. Python Pandas groupby語法
12. Python Pandas GroupBy％計算
13. 加速Pandas groupby中的行重複？
14. pandas groupby的最小和最大行由
15. python pandas groupby多列到一行
16. pandas groupby報告空箱
17. Pandas Groupby結合列聚合
18. 瞭解pandas中的groupby
19. python pandas groupby計算變化
20. Pandas Multiindex Groupby on專欄
21. pandas python中的groupby對象
22. Pandas Groupby累積金額
23. Percentiles加上Pandas groupby/aggregate
24. 新Pandas Groupby API更改
25. Groupby to Pandas中的Dataframe
26. Groupby with User Defined Functions Pandas
27. pandas groupby strip timezone in index
28. PANDAS GroupBy刪除標頭
29. Pandas Groupby TimeGrouper並適用
30. Pandas Groupby有多列選擇全行值的行