這個問題是複雜得多,它第一次出現。我最終使用numba的jit編譯生成器函數來計算指數和。我的最終結果是在我的計算機上計算一秒鐘內500萬行的指數總和,希望它足夠滿足您的需求。
# Initial dataframe.
df = pd.DataFrame({'time': [1, 2.1, 2.13, 3.7, 10, 10.2],
'A': [1, 3, -1, 7, 2, 1]})
# Initial decay parameter.
decay_constant = 1
我們可以定義衰減權重爲exp(-time_delta * decay_constant),並設置其等於初始值之一:
df['weight'] = np.exp(-df.time.diff() * decay_constant)
df.weight.iat[0] = 1
>>> df
A time weight
0 1 1.00 1.000000
1 3 2.10 0.332871
2 -1 2.13 0.970446
3 7 3.70 0.208045
4 2 10.00 0.001836
5 1 10.20 0.818731
現在,我們將採用JIT從numba優化發電機函數計算指數和:
from numba import jit
@jit(nopython=True)
def exponential_sum(A, k):
total = A[0]
yield total
for i in xrange(1, len(A)): # Use range in Python 3.
total = total * k[i] + A[i]
yield total
,我們將使用產生的值添加到數據幀:
df['expSum'] = list(exponential_sum(df.A.values, df.weight.values))
產生所需的輸出:
>>> df
A time weight expSum
0 1 1.00 1.000000 1.000000
1 3 2.10 0.332871 3.332871
2 -1 2.13 0.970446 2.234370
3 7 3.70 0.208045 7.464850
4 2 10.00 0.001836 2.013708
5 1 10.20 0.818731 2.648684
因此,讓我們的規模,以500萬行和檢查性能:使其均勻分佈的
df = pd.DataFrame({'time': np.random.rand(5e6).cumsum(), 'A': np.random.randint(1, 10, 5e6)})
df['weight'] = np.exp(-df.time.diff() * decay_constant)
df.weight.iat[0] = 1
%%timeit -n 10
df['expSum'] = list(exponential_sum(df.A.values, df.weight.values))
10 loops, best of 3: 726 ms per loop
你可以重新取樣的數據幀? – maxymoo
@Alexander我問的是總和,而不是平均值,雖然也許有一個明顯的變化 –
@Alexander我更仔細地閱讀了這個問題,我不認爲它解決了我的問題,這是如何向量化numpy/pandas計算。我沒有任何問題在python循環中計算指數和,我只是在足夠大的框架上進行操作,這些框架能夠對計算進行矢量化處理。 –