2017-05-26 107 views
1

我有以下結構的數據幀:如何計算串聯對象(熊貓)裏面的數據幀的平均值?

df.columns 
Index(['first_post_date', 'followers_count', 'friends_count', 
     'last_post_date','min_retweet', 'retweet_count', 'screen_name', 
     'tweet_count', 'tweet_with_max_retweet', 'tweets', 'uid'], 
     dtype='object') 

裏面鳴叫系列,每個小區是一個包含所有鳴叫的用戶的另一個數據幀。

df.tweets[0].columns 
Index(['created_at', 'id', 'retweet_count', 'text'], dtype='object') 

我想在鳴叫每個用戶的進行計算。

例如,我怎樣才能找到每個用戶的轉推的平均數量和最大轉推的推文?

+0

使用[DataFrame.groupby(HTTPS://pandas.pydata .ORG /大熊貓-文檔/穩定/生成/ pandas.DataFrame.groupby.html) –

回答

1

也許會有這樣的幫助:

df = pd.DataFrame({'id': [0, 1, 2], 
        'tweets': [pd.DataFrame({'id': [0, 1], 'retweet_count': [5, 10]}), 
           pd.DataFrame({'id': [2, 3], 'retweet_count': [55, 100]}), 
           pd.DataFrame({'id': [4, 5], 'retweet_count': [5555, 1000]})]}) 


stats = df['tweets'].apply(lambda x: pd.Series([x.retweet_count.max(), 
               x.retweet_count.mean()], 
               index=['max', 'mean'])) 

結果是一個數據幀,其中,列有每個用戶的數據:

 max mean 
0 10.0  7.5 
1 100.0 77.5 
2 5555.0 3277.5