-1

我有一個數據集，我閱讀：通過數據幀循環行添加到列大熊貓蟒蛇

import pandas as pd 
data = pd.read_excel('.../data.xlsx')

的內容是這樣的：

Out[57]: 
     Block Concentration   Name  value 
      1   100   GlcNAc2  321 
      1   100   GlcNAc2  139 
      1   100   GlcNAc2  202 
      1   33   GlcNAc2  86 
      1   33   GlcNAc2  194 
      1   33   GlcNAc2  452 
      1   100   BCC   345 
      1   100   BCC   6 
      1   100   BCC   34 
      1   33    BCC   11 
      1   33    BCC   53 
      1   33    BCC   87 
      1   0  Print buffer  127 
      1   0  Print buffer  55 
      1   0  Print buffer  67 


...  ...   ...    ...  ...    ... 

     24    0  Print buffer  -9968 
     24    0  Print buffer  -4526 
     24    0  Print buffer  14246

我想每個塊和名稱，添加三個'0'濃度並將來自該塊的3'打印緩衝區'值添加到這三個新的'0'濃度。

Out[57]: 
    Block Concentration   Name  value 
     1   0    GlcNAc2  127 
     1   0    GlcNAc2  55 
     1   0    GlcNAc2  67 
     1   100   GlcNAc2  321 
     1   100   GlcNAc2  139 
     1   100   GlcNAc2  202 
     1   33   GlcNAc2  86 
     1   33   GlcNAc2  194 
     1   33   GlcNAc2  452 
     1   0    BCC   127 
     1   0    BCC   55 
     1   0    BCC   67 
     1   100   BCC   345 
     1   100   BCC   6 
     1   100   BCC   34 
     1   33    BCC   11 
     1   33    BCC   53 
     1   33    BCC   87 
     1   0  Print buffer  127 
     1   0  Print buffer  55 
     1   0  Print buffer  67

... ... ... ... ... ...

 24    0  Print buffer  -9968 
    24    0  Print buffer  -4526 
    24    0  Print buffer  14246

計算3 '打印緩衝器' 的平均和中減去通過從每一個值同一塊。

期望的輸出：

Out[57]: 
    Block Concentration   Name  value   newvalue 
     1   0    GlcNAc2  127   127-mean(127+55+67) 
     1   0    GlcNAc2  55    55 -mean(127+55+67) 
     1   0    GlcNAc2  67    67-mean(127+55+67) 
     1   100   GlcNAc2  321   321-mean(127+55+67) 
     1   100   GlcNAc2  139    139-mean(127+55+67) 
     1   100   GlcNAc2  202   .... 
     1   33   GlcNAc2  86 
     1   33   GlcNAc2  194 
     1   33   GlcNAc2  452 
     1   0    BCC   127 
     1   0    BCC   55 
     1   0    BCC   67 
     1   100   BCC   345 
     1   100   BCC   6 
     1   100   BCC   34 
     1   33   BCC   11 
     1   33   BCC   53 
     1   33   BCC   87 
     1   0  Print buffer  127 
     1   0  Print buffer  55 
     1   0  Print buffer  67 

...  ...   ...    ...  ...    ... 

    24    0  Print buffer  -9968 
    24    0  Print buffer  -4526 
    24    0  Print buffer  14246

僞代碼：

for each block 
    for each Name 
    add concentration '0' three times 
    append the three values of 'print buffer' to the three '0' concentrations 
    newvalue = value - average(three print buffer)

來源

2015-11-11 Jessica

我的新職位@Andy海登:) – Jessica

@Parfait請看我在這裏的新職位 – Jessica

你有幾個問題在這裏。第一個涉及從一個子集重新填充數據框。另一個更多的計算問題涉及到「for」循環，而不是「groupby」和「transform」（或「apply」）操作。我建議把它分成兩個單獨的問題。 –

考慮使用groupby apply functions到數據集。第一個函數僅使用mean()對「打印緩衝區」的值進行平均，而將其他文件保留爲零。然後第二個功能最大化meanvalue。最後，簡單地創建newvalue的算術差：

def add_mean_value(mgrp): 
    mgrp['meanvalue'] = mgrp[mgrp['Name'] == 'Print buffer']['value'].mean()  
    return mgrp 
data = data.groupby(['Block', 'Concentration', 'Name']).apply(add_mean_value)  

def max_sum_value(mgrp):  
    mgrp['meanvalue'] = mgrp['meanvalue'].max()  
    return mgrp 
data = data.groupby(['Block']).apply(max_sum_value) 

data['newvalue'] = data['value'] - data['meanvalue'] 
print(data)

輸出

Block Concentration   Name value meanvalue newvalue 
0  1   100  GlcNAc2 321   83  238 
1  1   100  GlcNAc2 139   83  56 
2  1   100  GlcNAc2 202   83  119 
3  1    33  GlcNAc2  86   83   3 
4  1    33  GlcNAc2 194   83  111 
5  1    33  GlcNAc2 452   83  369 
6  1   100   BCC 345   83  262 
7  1   100   BCC  6   83  -77 
8  1   100   BCC  34   83  -49 
9  1    33   BCC  11   83  -72 
10  1    33   BCC  53   83  -30 
11  1    33   BCC  87   83   4 
12  1    0 Print buffer 127   83  44 
13  1    0 Print buffer  55   83  -28 
14  1    0 Print buffer  67   83  -16

來源

2015-11-11 03:58:53 Parfait

謝謝你這是有幫助的。你能幫助我更好地理解嗎？ sumvalue的第一部分是總結每個塊的「打印緩衝區」值。什麼是max_sum_value部分？它是否只返回最大值？在哪裏取3個'打印緩衝區'的平均值並從每個值中減去這部分？謝謝！經過試驗和錯誤後，我終於明白了 – Jessica

！取平均值：'sgrp ['sumvalue'] = sgrp [sgrp ['Name'] =='Print buffer'] ['value']。mean（）'和其餘幾乎相同。再次感謝@Parfait的幫助！ – Jessica

道歉，我查看了你想要的結果，並沒有看到平均值。是的，儘管在文中提到它，但可以使用「mean（）」而不是「sum（）」。 – Parfait

通過數據幀循環行添加到列大熊貓蟒蛇

僞代碼：

回答

相關問題