如何在python中實現星期數據的滾動聚合？

數據集的樣本是：

Date  Profit 
2013-06-21 14 
2013-06-22 19 
2013-06-23 11 
2013-06-24 13 
2013-06-25 6 
2013-06-26 22 
2013-06-27 22 
2013-06-28 3 
2013-06-29 5 
2013-06-30 10 
2013-07-01 17 
2013-07-02 14 
2013-07-03 9 
2013-07-04 7

Sample input是：

data = [('2013-06-21',14), 
    ('2013-06-22',19), 
    ('2013-06-23',11), 
    ('2013-06-24',13), 
    ('2013-06-25',6), 
    ('2013-06-26',22), 
    ('2013-06-27',22), 
    ('2013-06-28',3), 
    ('2013-06-29',5), 
    ('2013-06-30',10), 
    ('2013-07-01',17), 
    ('2013-07-02',14), 
    ('2013-07-03',9), 
    ('2013-07-04',7)]

現在我想做一個rolling aggregation並存儲聚合。通過滾動聚合，我的意思是說，對於第1周（2013-06-21至2013-06-27），我想添加之前日期的利潤並將其與當前日期一起存儲。因此，對於2013-06-21，總和將僅爲14，因爲它是一週中的第一天，但對於2013-06-22，它應該是previous date (2013-06-21)和current date (2013-06-22)的總和，並且這應該與當前日期一起存儲。這將持續到週末，然後在下週再次重新開始，新的一週沒有以前的日期。因此，對於第一週的sample output應該是這樣的：

Date  Profit 
2013-06-21 14 
2013-06-22 33 #(14 + 19) 
2013-06-23 44 #(33 + 11) 
2013-06-24 57 #(44 + 13) 
2013-06-25 63 #(57 + 6) 
2013-06-26 85 #(63 + 22) 
2013-06-27 107 #(85 + 22)

我想看看defaultdict和這樣做：

def aggregate(data, key, value, func): 
    measures_dict = collections.defaultdict(list) 
    for k,v in zip(data[key], data[value]): 
     measures_dict[k].append(v) 

return [(k,func(measures_dict[k])) for k in measures_dict.keys()]

，但我沒有得到結果，認爲defaultdict不是正確的方式來做到這一點。我也看着pandas，但我無法開始做到這一點。任何人都可以幫助我進行滾動聚合嗎？

來源

2015-02-09 Jason Donnald

它看起來像你希望我們爲你寫一些代碼。儘管許多用戶願意爲遇險的編碼人員編寫代碼，但他們通常只在海報已嘗試自行解決問題時才提供幫助。證明這一努力的一個好方法是包含迄今爲止編寫的代碼，示例輸入（如果有的話），期望的輸出和實際獲得的輸出（控制檯輸出，堆棧跟蹤，編譯器錯誤 - 無論是適用）。您提供的細節越多，您可能會收到的答案就越多。 – 2015-02-09 20:42:46

另外，什麼定義了一個星期;是星期一還是星期天是一週的開始？ – 2015-02-09 20:43:04

這個數據的格式是什麼？它是否分類？日期已經解析成對象還是僅僅是字符串？ – 2015-02-09 20:43:35

看到這個答案： Cumulative sum and percentage on column?

這： http://pandas.pydata.org/pandas-docs/stable/basics.html#basics-dt-accessors 這： http://pandas.pydata.org/pandas-docs/stable/groupby.html

更新了每週累積：

df = pd.DataFrame(data) 
df.columns = ['Date','Profit'] 
df['Date'] = pd.to_datetime(df['Date']) 
df['weekofyear'] = df['Date'].dt.weekofyear 
df.reset_index('Date') 
df.sort_index(inplace=True) 
df['Weekly_Cum'] = df.groupby('weekofyear').cumsum()

輸出：

  Date Profit weekofyear Weekly_Cum 
0 2013-06-21  14   25   14 
1 2013-06-22  19   25   33 
2 2013-06-23  11   25   44 
3 2013-06-24  13   26   13 
4 2013-06-25  6   26   19 
5 2013-06-26  22   26   41 
6 2013-06-27  22   26   63 
7 2013-06-28  3   26   66 
8 2013-06-29  5   26   71 
9 2013-06-30  10   26   81 
10 2013-07-01  17   27   17 
11 2013-07-02  14   27   31 
12 2013-07-03  9   27   40 
13 2013-07-04  7   27   47

來源

2015-02-10 01:42:29

以上的更新後的帖子我想每週做滾動總和。所以對於2013-06-21到2013-06-27的一週，將會有一個滾動總和，但是從2013年6月28日開始，它應該從新鮮開始並且不會將之前2013-06-27的值計入 – 2015-02-10 02:10:51

@JasonDonnald：也許[文檔可以在這裏幫助]（http://pandas.pydata.org/pandas-docs/dev/computation.html#moving-rolling-statistics-moments）？ – 2015-02-10 14:39:31

@JasonDonnald剛更新爲每週累積。我確實閱讀了原始評論，並且我認爲您可以先完成更多搜索，但是您確實發佈了代碼以創建我欣賞的df。我喜歡解決我在自己的工作中不會遇到的假互聯網點問題。 – 2015-02-10 19:30:48

如何在python中實現星期數據的滾動聚合？

回答

相關問題