我有一個巨大的面板數據,超過10 GB。數據如下所示:在限制和大數據的熊貓運行總和
ID Start_time Factor End_time
1001 1611 0.12 1861
1001 1612 -0.01 1862
...
1001 1861 0.57 2111
1001 1862 0.06 2112
...
1002 1200 0.01 1450
1002 1201 0.52 1451
...
1002 1450 -0.21 1700
1002 1451 0.30 1701
...
的數據由ID和START_TIME值排序。我想計算因子的總和,即對於每個ID從開始時間到相應的結束時間。
輸出的一個例子:
ID Start_time Factor End_time Cumulative_factor
1001 1611 0.12 1861 0.12+(-0.01)+...+0.57
1001 1612 -0.01 1862 -0.01+...+0.57+0.06
...
1001 1861 0.57 2111 0.57+0.06+...
1001 1862 0.06 2112 0.06+...
...
1002 1200 0.01 1450 0.01+0.52+...+(-0.21)
1002 1201 0.52 1451 0.52+...+(-0.21)+0.30
...
1002 1450 -0.21 1700 -0.21+0.30+...
1002 1451 0.30 1701 0.30+...
...
因爲我有超過1000萬的觀察,有沒有計算它一個有效的方法?
你能顯示你想要的輸出嗎? –
下面的文章演示瞭如何計算一個太大而不適合內存的熊貓'DataFrame': https://plot.ly/ipython-notebooks/big-data-analytics-with-pandas-and-sqlite/ – aensm
由於數據已排序並且看起來像'End_time-Start_time == 250',您可以嘗試滾動窗口總和? – Zero