2017-05-10 51 views
0

我有一個可變數量的列的熊貓數據框。我想對數據框的每一列進行數值整合,以便我可以評估從第0行到第n行的定積分。我有一個在1D數組上工作的函數,但是在熊貓數據框中有沒有更好的方法來做到這一點,以便我不必遍歷列和單元格?我正在考慮使用applymap的一些方法,但我看不出如何使它工作。python熊貓數據框中的有限數值積分

這是一維數組上工作的功能:

def findB(x,y): 

     y_int = np.zeros(y.size) 
     y_int_min = np.zeros(y.size) 
     y_int_max = np.zeros(y.size) 
     end = y.size-1 

     y_int[0]=(y[1]+y[0])/2*(x[1]-x[0]) 

     for i in range(1,end,1): 
      j=i+1 
      y_int[i] = (y[j]+y[i])/2*(x[j]-x[i]) + y_int[i-1] 

     return y_int 

我想要的東西,一次全部計算數據幀的多列,這樣的事情來替代它:

B_df = y_df.applymap(integrator) 

編輯:

開始數據幀dB_df:

 Sample1 1 dB Sample1 2 dB Sample1 3 dB Sample1 4 dB Sample1 5 dB Sample1 6 dB 
    0 2.472389 6.524537 0.306852 -6.209527 -6.531123 -4.901795 
    1 6.982619 -0.534953 -7.537024 8.301643 7.744730 7.962163 
    2 -8.038405 -8.888681 6.856490 -0.052084 0.018511 -4.117407 
    3 0.040788 5.622489 3.522841 -8.170495 -7.707704 -6.313693 
    4 8.512173 1.896649 -8.831261 6.889746 6.960343 8.236696 
    5 -6.234313 -9.908385 4.934738 1.595130 3.116842 -2.078000 
    6 -1.998620 3.818398 5.444592 -7.503763 -8.727408 -8.117782 
    7 7.884663 3.818398 -8.046873 6.223019 4.646397 6.667921 
    8 -5.332267 -9.163214 1.993285 2.144201 4.646397 0.000627 
    9 -2.783008 2.288842 5.836786 -8.013618 -7.825365 -8.470759 

結束數據幀B_df:

 Sample1 1 B Sample1 2 B Sample1 3 B Sample1 4 B Sample1 5 B Sample1 6 B 
    0 0.000038 0.000024 -0.000029 0.000008 0.000005 0.000012 
    1 0.000034 -0.000014 -0.000032 0.000041 0.000036 0.000028 
    2 0.000002 -0.000027 0.000010 0.000008 0.000005 -0.000014 
    3 0.000036 0.000003 -0.000011 0.000003 0.000002 -0.000006 
    4 0.000045 -0.000029 -0.000027 0.000037 0.000042 0.000018 
    5 0.000012 -0.000053 0.000015 0.000014 0.000020 -0.000023 
    6 0.000036 -0.000023 0.000004 0.000009 0.000004 -0.000028 
    7 0.000046 -0.000044 -0.000020 0.000042 0.000041 -0.000002 
    8 0.000013 -0.000071 0.000011 0.000019 0.000028 -0.000036 
    9 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 

在上面的例子中,

所有的
(x[j]-x[i]) = 0.000008 
+1

你可以舉一個你的輸入數據框和預期輸出的例子嗎? – Allen

+0

您正在尋找'apply'可能,但這實際上不會比列上的循環更有效率。 –

+0

'x'從哪裏來?它是一個'系列',一個numpy'ndarray',還是別的? –

回答

0

首先,你可以使用矢量操作達到類似的效果。積分的每個元素只是當前和下一個y值的平均值,其值由x中的相應差異縮放。最後的積分只是這些元素的累積和。您可以通過實現做一些像

def findB(x, y): 
    """ 
    x : pandas.Series 
    y : pandas.DataFrame 
    """ 
    mean_y = (y[:-1] + y.shift(-1)[:-1])/2 
    delta_x = x.shift(-1)[:-1] - x[:-1] 
    scaled_int = mean_y.multiply(delta_x) 
    cumulative_int = scaled_int.cumsum(axis='index') 
    return cumulative_int.shift(1).fillna(0) 

這裏DataFrame.shiftSeries.shift相同的結果被用來匹配「下一個」元素,以目前的指數。您必須使用DataFrame.multiply而不是*操作員以確保使用正確的軸('index' vs 'column')。最後,DataFrame.cumsum提供了最終的整合步驟。 DataFrame.fillna確保您有第一行零,就像您在原始解決方案中做的那樣。使用所有本地熊貓函數的優點是,您可以傳入任意數量的列的數據框,並可以同時在所有列上操作。