我有如下Dataframe
:刪除重複行,如果包含所有相同的數值
df = pd.DataFrame({'first' : ['John', 'Mary','Peter'],
'last' : ['Mary', 'John','Mary']})
df
Out[700]:
first last
0 John Mary
1 Mary John
2 Peter Mary
我想刪除重複的當行包含相同的值 在這種情況下,有望走出放將是:
first last
0 John Mary
2 Peter Mary
下面是我的做法至今:
df['DropKey']=df.apply(lambda x: ''.join(sorted(pd.Series(x))),axis=1)
df.drop_duplicates('DropKey')
是個是否有任何有效的方法來實現這一目標?
我真正的數據大小:
df.shape
Out[709]: (10000, 607)
你能與此不良信息幫助,所以回答 - https://stackoverflow.com/a/48346011/6361531 –
@ScottBoston sure – Wen