DataFrame.index.levels在削減數據框後顯示「額外」值

比方說，我有一個很大的數據框large，它在行上有一個MultiIndex。我通過只選擇一些行並將結果分配給small來削減這個數據幀。特別地，small在其行的MultiIndex的第0級具有比large更少的不同值。DataFrame.index.levels在削減數據框後顯示「額外」值

然後我想要在small行的MultiIndex的第0級別中的不同值的列表，所以我打電話small.index.levels[0]。結果很奇怪：它返回的結果與large.index.levels[0]相同，儘管應該有更少的值。

發生了什麼事？

MWE：

import pandas as pd 
import numpy as np 

np.random.seed(0) 

idx = pd.MultiIndex.from_product([['John', 'Josh', 'Alex'], list('abcde')], 
           names=['Person', 'Letter']) 
large = pd.DataFrame(data=np.random.randn(15, 2), 
        index=idx, 
        columns=['one', 'two']) 
small = large.loc[['Jo'==d[0:2] for d in large.index.get_level_values('Person')]] 

print small.index.levels[0] 
print large.index.levels[0]

輸出：

Index([u'Alex', u'John', u'Josh'], dtype='object') 
Index([u'Alex', u'John', u'Josh'], dtype='object')

預期輸出：

Index([u'John', u'Josh'], dtype='object') 
Index([u'Alex', u'John', u'Josh'], dtype='object')

來源

2014-06-26 8one6

更有效地做到這一點。

In [43]: large[large.index.get_level_values('Person').to_series().str.startswith('Jo').values] 
Out[43]: 
        one  two 
Person Letter      
John a  1.764052 0.400157 
     b  0.978738 2.240893 
     c  1.867558 -0.977278 
     d  0.950088 -0.151357 
     e  -0.103219 0.410599 
Josh a  0.144044 1.454274 
     b  0.761038 0.121675 
     c  0.443863 0.333674 
     d  1.494079 -0.205158 
     e  0.313068 -0.854096

回答你的問題。這是一個實現細節。使用.get_level_values()（而不是訪問內部.levels

，如果你想你可以做到這一點。

In [13]: small.index.get_level_values('Person').unique() 
Out[13]: array(['John', 'Josh'], dtype=object) 

In [14]: large.index.get_level_values('Person').unique() 
Out[14]: array(['John', 'Josh', 'Alex'], dtype=object)

來源

2014-06-26 15:47:17 Jeff

我不太清楚你已經回答了我的問題。我的目標是不是爲了實現從'過濾大「到」small「，我的'small'上面只有我想要的數據，我想要的是在'small'的MultiIndex的第0級獲得不同值的列表（例如，'large'在其MultiIndex的'Person'級別可能有數百個名字，所以我可能不知道當我過濾掉只以'Jo''開頭的名字時我會得到什麼，但是，一旦過濾完成，我想看看我得到了什麼，你如何建議我這樣做？ – 8one6

使用''.unique（）'' – Jeff

DataFrame.index.levels在削減數據框後顯示「額外」值

回答

相關問題