我有一列看起來像熊貓數據框以下:大熊貓分裂名單列到多列
`
In [207]:df2.teams
Out[207]:
0 [SF, NYG]
1 [SF, NYG]
2 [SF, NYG]
3 [SF, NYG]
4 [SF, NYG]
5 [SF, NYG]
6 [SF, NYG]
7 [SF, NYG]
`
我需要列出的這列分成兩列名爲TEAM1和TEAM2使用熊貓
我有一列看起來像熊貓數據框以下:大熊貓分裂名單列到多列
`
In [207]:df2.teams
Out[207]:
0 [SF, NYG]
1 [SF, NYG]
2 [SF, NYG]
3 [SF, NYG]
4 [SF, NYG]
5 [SF, NYG]
6 [SF, NYG]
7 [SF, NYG]
`
我需要列出的這列分成兩列名爲TEAM1和TEAM2使用熊貓
您可以通過values
與tolist
轉換爲numpy array
使用DataFrame
構造函數創建lists
:
import pandas as pd
d1 = {'teams': [['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],
['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG']]}
df2 = pd.DataFrame(d1)
print (df2)
teams
0 [SF, NYG]
1 [SF, NYG]
2 [SF, NYG]
3 [SF, NYG]
4 [SF, NYG]
5 [SF, NYG]
6 [SF, NYG]
df2[['team1','team2']] = pd.DataFrame(df2.teams.values.tolist(), index= df2.index)
print (df2)
teams team1 team2
0 [SF, NYG] SF NYG
1 [SF, NYG] SF NYG
2 [SF, NYG] SF NYG
3 [SF, NYG] SF NYG
4 [SF, NYG] SF NYG
5 [SF, NYG] SF NYG
6 [SF, NYG] SF NYG
而對於新DataFrame
:
df3 = pd.DataFrame(df2['teams'].values.tolist(), columns=['team1','team2'])
print (df3)
team1 team2
0 SF NYG
1 SF NYG
2 SF NYG
3 SF NYG
4 SF NYG
5 SF NYG
6 SF NYG
與apply(pd.Series)
解決方案是非常緩慢:
#7k rows
df2 = pd.concat([df2]*1000).reset_index(drop=True)
In [89]: %timeit df2['teams'].apply(pd.Series)
1 loop, best of 3: 1.15 s per loop
In [90]: %timeit pd.DataFrame(df2['teams'].values.tolist(), columns=['team1','team2'])
1000 loops, best of 3: 820 µs per loop
似乎有一個語法簡單的方法,因此更容易記住,而不是提出的解決方案。我假設的列稱爲一個數據幀DF「元」:
df2 = pd.DataFrame(df['meta'].str.split().values.tolist())
我得到一個錯誤,但我通過刪除'str.split()'來解決它。如果您不知道列表中的項目數量,那麼這更簡單,並且具有優勢。 – otteheng
什麼樣,如果列名有空間,如「團隊1」。我試圖以這種方式訪問列值** df2 ['team 1'] **但它不起作用。 – Sherlock
我認爲它也很好。 – jezrael
小問題,如果您在現有數據框上使用它,請確保重置索引,否則將無法正確分配。 – user1700890