我有一個使用Python的患者ID號的數據框,每個記錄代表不同的約會。在每次約會時,一個特徵(dx)被記錄爲0或1.我想創建一個新特徵來總結dx特徵,但只能達到該患者的那一點。枚舉Python中的分組變量
patient_ID | dx |
29847 0
29847 1
29847 0
29847 1
29847 1
我可以拿到小組第一的總和用一個簡單的GROUPBY聲明:
df.groupby(['patient_ID])['dx'].sum()
但我想是枚舉值作爲一個新的功能,只考慮現在和以前的記錄:
patient_ID | dx | dx_enum
29847 0 0
29847 1 1
29847 0 1
29847 1 2
29847 1 3
我想這將採取for-loop和groupby語句的組合,但迄今不成功。感謝您的任何幫助,您可以提供!
您是否在尋找'cumsum()'? – EdChum 2015-03-30 21:22:51