2017-04-15 153 views
1

我有一個3維numpy數組,(z, x, y)z是時間維度,並且xy是座標。我想將其轉換爲多索引pandas.DataFrame。我希望行索引是z維 ,並且每列都具有唯一x,y座標的值(因此,每列都將被多索引)。3維numpy數組到多索引熊貓數據幀

最簡單的情況下(不是多索引):

>>> array.shape 
(500L, 120L, 100L) 

>>> df = pd.DataFrame(array[:,0,0]) 

>>> df.shape 
(500, 1) 

我一直在嘗試使用pd.MultiIndex.from_arrays通過整個陣列成多指標數據幀,但我得到一個錯誤: NotImplementedError:> 1 ndim目前不支持分類

看起來應該是相當簡單的,但我無法弄清楚。

回答

1

我認爲你可以使用panel - ,然後Multiindex DataFrame添加to_frame

np.random.seed(10) 
arr = np.random.randint(10, size=(5,3,2)) 
print (arr) 
[[[9 4] 
    [0 1] 
    [9 0]] 

[[1 8] 
    [9 0] 
    [8 6]] 

[[4 3] 
    [0 4] 
    [6 8]] 

[[1 8] 
    [4 1] 
    [3 6]] 

[[5 3] 
    [9 6] 
    [9 1]]] 

df = pd.Panel(arr).to_frame() 
print (df) 
      0 1 2 3 4 
major minor    
0  0  9 1 4 1 5 
     1  4 8 3 8 3 
1  0  0 9 0 4 9 
     1  1 0 4 1 6 
2  0  9 8 6 3 9 
     1  0 6 8 6 1 

而且transpose可能是有用的:

df = pd.Panel(arr).transpose(1,2,0).to_frame() 
print (df) 
      0 1 2 
major minor   
0  0  9 0 9 
     1  1 9 8 
     2  4 0 6 
     3  1 4 3 
     4  5 9 9 
1  0  4 1 0 
     1  8 0 6 
     2  3 4 8 
     3  8 1 6 
     4  3 6 1 

concat另一種可能的解決方案:

arr = arr.transpose(1,2,0) 
df = pd.concat([pd.DataFrame(x) for x in arr], keys=np.arange(arr.shape[2])) 
print (df) 
    0 1 2 3 4 
0 0 9 1 4 1 5 
    1 4 8 3 8 3 
1 0 0 9 0 4 9 
    1 1 0 4 1 6 
2 0 9 8 6 3 9 
    1 0 6 8 6 1 

np.random.seed(10) 
arr = np.random.randint(10, size=(500,120,100)) 
df = pd.Panel(arr).transpose(2,0,1).to_frame() 
print (df.shape) 
(60000, 100) 

print (df.index.max()) 
(499, 119) 
+0

謝謝!這越來越接近。但數據的形狀是不正確的,我正在尋找500行(作爲「主要」)和0和1作爲你的初始例子中的次要。但是我得到500列。我嘗試了不同的轉置排列,但仍不完全正確。 – BioProg

+0

你是否需要'小'和'100'或'120'列中的'500'行,主要是'120'還是'100'? – jezrael

+0

也許需要'.transpose(1,0,2)'如果是'120'列。 – jezrael

0

我發現一個Series with a Multiindex是一個numpy數組最大的熊貓數據類型,任意多維(推測是3或更多)。

下面是一些示例代碼:

import pandas as pd 
import numpy as np 

time_vals = np.linspace(1, 50, 50) 
x_vals = np.linspace(-5, 6, 12) 
y_vals = np.linspace(-4, 5, 10) 

measurements = np.random.rand(50,12,10) 

#setup multiindex 
mi = pd.MultiIndex.from_product([time_vals, x_vals, y_vals], names=['time', 'x', 'y']) 

#connect multiindex to data and save as multiindexed Series 
sr_multi = pd.Series(index=mi, data=measurements.flatten()) 

#pull out a dataframe of x, y at time=22 
sr_multi.xs(22, level='time').unstack(level=0) 

#pull out a dataframe of y, time at x=3 
sr_multi.xs(3, level='x').unstack(level=1)