2017-09-05 48 views
1

我有一個巨大的數據框,並試圖找出最有效的方法來標準化列中的每個值,然後使用mean和std.dev遍歷所有列。正常化熊貓數據幀的每一列的值

數據幀的示例如下:

TimeStamp   340   341   342   343  
0 10:27:30  1.953036  2.110234  1.981548  1.705684 
1 10:28:30  1.973408  2.046361  1.806923  1.496244 
2 10:29:30  0.000000  0.000000  0.014881  0.198947 
3 10:30:30  2.567976  3.169928  3.479591  3.557881 
4 10:31:30 4415.498729 5075.996948 5653.925541 6133.202200 
5 10:32:30 4473.930295 5146.802497 5736.030854 6224.380260 

我想: 找到山坳平均[ 「340」]:

for column in df.iteritems(): 
df.mean() 
df.std() 

...正火進一步的計算

但是,我對熊貓是非常新的,它不工作.... :( 我可以找到每列的平均值,但我有2500列顏色

回答

1

如果您尋找數據標準化的,那麼你就可以做到這一點

(df.iloc[:,1:] - df.mean().values)/df.std().values 

假設你想要做的(X-均值)/標準差正常化。注:df.loc[]用於免除TimeStamp的第一列...

+0

:)謝謝!嵌套的循環給了我麻煩....這是完美的!正是我需要它做的! –