熊貓GROUPBY COUNTIF

我有這個結構的數據幀：熊貓GROUPBY COUNTIF

time,10.0.0.103,10.0.0.24 
2016-10-12 13:40:00,157,172 
2016-10-12 14:00:00,0,203 
2016-10-12 14:20:00,0,0 
2016-10-12 14:40:00,0,200 
2016-10-12 15:00:00,185,208

它詳細介紹了每個IP地址的事件，對於一個給定20分鐘時期的數量。我需要一個關於每個礦工有多少20分鐘時間有0個事件的數據框，從這個數據框我需要以百分比的形式獲得IP'正常運行時間'。 IP地址的數量是動態的。所需的輸出：

IP,noEvents,uptime 
10.0.0.103,3,40 
10.0.0.24,1,80

我試過用groupby，agg和lambda無濟於事。通過動態列進行「countif」的最佳方式是什麼？

來源

2016-10-13 user6949779

如果礦工IP'10.0.0.103'有3個階段（5個）沒有意外，他的正常運行時間不應該是60％嗎？ – unutbu

嗯，是的。我的錯。 – user6949779

您可以通過條件df == 0使用布爾掩碼的sum和mean。最後concat兩個Series：

df.set_index('time', inplace=True) 
mask = (df == 0) 
print (mask) 
        10.0.0.103 10.0.0.24 
time          
2016-10-12 13:40:00  False  False 
2016-10-12 14:00:00  True  False 
2016-10-12 14:20:00  True  True 
2016-10-12 14:40:00  True  False 
2016-10-12 15:00:00  False  False 

noEvents = mask.sum() 
print (noEvents) 
10.0.0.103 3 
10.0.0.24  1 
dtype: int64 

uptime = 100 * mask.mean() 
print (uptime) 
10.0.0.103 60.0 
10.0.0.24  20.0 
dtype: float64 

print (pd.concat([noEvents, uptime], axis=1, keys=('noEvents','uptime')) 
     .reset_index() 
     .rename(columns={'index':'IP'})) 

      IP noEvents uptime 
0 10.0.0.103   3 60.0 
1 10.0.0.24   1 20.0

來源

2016-10-13 12:01:20 jezrael

移調DF：

df = df.T

既然你一起使用groupby的線試過了，你可以繼續進行使用value_counts拿到零的計數各組堆疊後它會產生一個series對象，並隨後將其拆回回DF，如下所示：

grp = df.stack().to_frame('val').groupby(level=0)['val'] 
df['noEvents'] = grp.value_counts().unstack()[0]

後來劃分值與該組的規模來獲得它的百分比分佈：

df['upTime'] = (100*df['noEvents']/grp.size())

對於審美目的：

df = df[['noEvents', 'upTime']].astype(int) 
df.index.name = 'IP' 
df.columns.name = None 
df

來源

2016-10-13 14:36:20

熊貓GROUPBY COUNTIF

回答

相關問題