如何僅使用MultiIndex列從DataFrame中選擇特定列？

我有一個多指標列數據框，看起來像這樣：如何僅使用MultiIndex列從DataFrame中選擇特定列？

# sample data 
col = pd.MultiIndex.from_arrays([['one', 'one', 'one', 'two', 'two', 'two'], 
           ['a', 'b', 'c', 'a', 'b', 'c']]) 
data = pd.DataFrame(np.random.randn(4, 6), columns=col) 
data

sample data

什麼是從第二級只選擇特定的列（如['a', 'c']，而不是一個區間）的合適的，簡單的方法？

目前，我這樣做是這樣的：

import itertools 
tuples = [i for i in itertools.product(['one', 'two'], ['a', 'c'])] 
new_index = pd.MultiIndex.from_tuples(tuples) 
print(new_index) 
data.reindex_axis(new_index, axis=1)

expected result

它不覺得自己是一個很好的解決方案，但是，因爲我已經出局itertools，手工打造的又一多指標和然後reindex（和我的實際代碼更混亂，因爲列列表並不是很容易獲取）。我很確定必須有一些ix或xs這樣做，但我試過的一切都會導致錯誤。

來源

2013-08-27 metakermit

您是否嘗試過使用字典？ – darmat

不，我沒有。你的意思是更快地構建MultiIndex？如果是這樣，那不是重點 - 我想避免它，並直接用像'data.xs（['a'，'c']，axis = 1，level = 1）'這樣的東西編號' – metakermit

讓我們假設： – darmat

這不是很大，但也許：

>>> data 
     one       two      
      a   b   c   a   b   c 
0 -0.927134 -1.204302 0.711426 0.854065 -0.608661 1.140052 
1 -0.690745 0.517359 -0.631856 0.178464 -0.312543 -0.418541 
2 1.086432 0.194193 0.808235 -0.418109 1.055057 1.886883 
3 -0.373822 -0.012812 1.329105 1.774723 -2.229428 -0.617690 
>>> data.ix[:,data.columns.get_level_values(1).isin({"a", "c"})] 
     one     two   
      a   c   a   c 
0 -0.927134 0.711426 0.854065 1.140052 
1 -0.690745 -0.631856 0.178464 -0.418541 
2 1.086432 0.808235 -0.418109 1.886883 
3 -0.373822 1.329105 1.774723 -0.617690

會的工作？

來源

2013-08-27 16:22:58 DSM

其實我認爲這是在MultiIndex的任意級別過濾出標籤列表而不創建所有元組的最佳方式。我只是爲了清晰起見而使用'loc'。 –

要保留列的順序，最好使用'isin（[「a」，「b」]）'。 – Peaceful

@和平：什麼？這並沒有改變任何東西。 isin調用的結果是一個bool系列，其順序由原始系列的順序決定，而不是isin的參數。 – DSM

您可以使用，loc或ix我將展示與loc一個例子：

data.loc[:, [('one', 'a'), ('one', 'c'), ('two', 'a'), ('two', 'c')]]

當你有一個MultiIndexed數據幀，並且要過濾出一些列的，你必須傳遞與這些列匹配的元組列表。所以迭代工具的做法是非常好的，但是你沒有創建一個新的多指標：

data.loc[:, list(itertools.product(['one', 'two'], ['a', 'c']))]

來源

2013-08-27 16:16:56

謝謝，這也是一個很好的解決方案！ – metakermit

我認爲這是一個更好的方法（現在的），這就是爲什麼我懶得拉這個問題（這是前谷歌結果）走出陰影：

data.select(lambda x: x[1] in ['a', 'b'], axis=1)

給出您的預計產量在快速，乾淨的一行：

 one     two   
      a   b   a   b 
0 -0.341326 0.374504 0.534559 0.429019 
1 0.272518 0.116542 -0.085850 -0.330562 
2 1.982431 -0.420668 -0.444052 1.049747 
3 0.162984 -0.898307 1.762208 -0.101360

它基本上是自我解釋，該[1]指水平。

來源

2015-10-11 18:19:03 FooBar

要選擇你的列索引的第二級命名'a'和'c'所有列，您可以用切片機：

>>> data.loc[:, (slice(None), ('a', 'c'))] 

     one     two   
      a   c   a   c 
0 -0.983172 -2.495022 -0.967064 0.124740 
1 0.282661 -0.729463 -0.864767 1.716009 
2 0.942445 1.276769 -0.595756 -0.973924 
3 2.182908 -0.267660 0.281916 -0.587835

Here你可以閱讀更多有關切片機。

來源

2016-06-17 03:43:55

如何僅使用MultiIndex列從DataFrame中選擇特定列？

回答

相關問題