2017-07-06 81 views
0

我需要從數據集中刪除重複的行。基本上,我應該執行刪除數據框python的重複行

proc sort data=mydata noduprecs dupout=mydata_dup;run; 

我需要刪除重複,以及保存在單獨的dataframe那些重複的行。我怎樣才能做到這一點?

回答

0

假設你的數據集是一個熊貓數據框。

去除重複行:

data = data.drop_duplicates() 

要選擇所有重複的行:

dup = data.ix[data.duplicated(), :] 

希望它能幫助。

+0

是的,它幫助。非常感謝 ! – Anu