2016-11-15 103 views
0

我偶爾正在傳送的數據幀有許多N/A值。具有麻煩操縱熊貓數據幀

enter image description here

在這種情況下,有reduntant行。對於每個X值,只有一個Y值。因此,我想通過「上下文」柱,用測量的列名(M1,M2,...,Mn)的組合以兩個「例1」的行合併到1行(在圖像中示出)。

怎麼可能用一個數據幀大熊貓功能做到這一點?

謝謝。

回答

1
df = pd.DataFrame(
    [ 
     ['a', .1, np.nan, np.nan, .5], 
     ['b', np.nan, .2, .3, .5], 
    ], 
    ['example1', 'example1'], 
    ['context', 'M1', 'M2', 'M3', 'Y'] 
) 

d1 = df.set_index('context', append=True).stack().unstack([1, 2]) 

d1.columns = d1.columns.map('_'.join) 

d1 

enter image description here

1

你可以使用一個連接。它發生在rsuffixlsuffix參數,所以這將是更容易使用的,但如果你需要使用一個前綴,你可以手動更改。

創建您的數據幀

df = pd.DataFrame({'X':['example1', 'example1'], 'context':['a', 'b'], 'M1':[0.1, np.nan], 'M2':[np.nan,0.2], 'M3':[np.nan, 0.3], 'Y':[0.5, 0.5]}, columns=['X', 'context', 'M1', 'M2', 'M3', 'Y']) 

解決方案

dfa = df[df['context'] == 'a'].set_index(['X', 'Y']).drop('context', axis=1) 
dfb = df[df['context'] == 'b'].set_index(['X', 'Y']).drop('context', axis=1) 

dfa.join(dfb, how='left', lsuffix='_a', rsuffix='_b').dropna(axis=1)