的Python：「」在大熊貓DF高效分離列

假設我有一個包含表單的Python：「」在大熊貓DF高效分離列

0  A.1 
1  A.2 
2  B.3 
3  4.C

並假設我想要分割該列的列中的DF只使用'。'後面的元素。一種天真的做法是：

for i in range(len(tbl)): 
    tbl['column_name'].iloc[i] = tbl['column_name'].iloc[i].split('.',1)[1]

這是有效的。大桌子的速度很慢。有沒有人有關於如何加快這個過程的想法？我可以在DF中使用新列，因此我不限於更改源列（因爲我在示例中重複使用了它）。謝謝！

來源

2015-06-04 user3861925

對於一個的大數據幀，這是必須更快地使用map，而不是一個循環：

%timeit df['newcol'] = df.column_name.map(lambda x: x.split('.')[1]) 
100 loops, best of 3: 10.7 ms per loop 

%timeit for i in range(len(df)): df['newcol'].iloc[i] = df['column_name'].iloc[i].split('.',1)[1] 
1 loops, best of 3: 7.63 s per loop

來源

2015-06-04 07:53:22 maxymoo

pandas具有字符串方法能夠有效地做這樣的事情沒有循環（這殺性能）。在這種情況下，你可以使用.str.split：

>> import pandas as pd 
>> df = pd.DataFrame({'a': ['A.1', 'A.2', 'B.3', 'C.4']}) 
>> df 
    a 
0 A.1 
1 A.2 
2 B.3 
3 C.4 
>> df.a.str.split('.').apply(pd.Series) 
    0 1 
0 A 1 
1 A 2 
2 B 3 
3 C 4

來源

2015-06-04 07:58:15

阿米 - Tavory工作就像一個奇蹟（慢奇蹟，但並不是一個小時奇蹟:-)）！ @maxymoo - 謝謝你的回答。它比原生熊貓慢一些，但比普通的「for」循環要快得多！可能對於某些情況，這種情況甚至比熊貓解析更好。非常感謝你。 – user3861925

的Python：「」在大熊貓DF高效分離列

回答

相關問題