我正在查看年度化的棒球統計數據,並且希望計算回顧前3年的點擊數量方面的表現。然而,我想說明一個事實,即在我的數據集超過3年的時候,一個單一球員可能只在聯盟中待了1 - 2年,而且不會有3年的觀測值,計算滾動平均值。例如:如何在沒有保證觀測數的情況下使用Pandas滾動平均值
In[6]: df = pd.DataFrame({'PLAYER_ID': ['A', 'A', 'A', 'B', 'B'],
'HITS': [45, 55, 50, 20, 24]})
In[9]: df
Out[9]:
PLAYER_ID HITS
0 A 45
1 A 55
2 A 50
3 B 20
4 B 24
我將如何使用GROUPBY和聚合/變換(或一些其他進程)來計算滾動平均值爲每個玩家具有最大3年曆史總計,然後只用可用的最大具有少於3年曆史績效數據的球員的歷史觀察數據?
很確定我的答案在於Pandas包,但會對任何解決方案感興趣。
謝謝!
您確定滾動手段實際上是您想要的嗎?每個球員只有一到三個觀察數據,這個數據太稀少了,因此滾動意味着特別有意義。 –
爲了簡化說明,它被年度化了。我會在遊戲關卡數據上做一些其他事情。 – Alt182
什麼是你的[抽樣頻率](http://pandas.pydata.org/pandas-docs/stable/timeseries.html#resampling)? –