2016-07-18 39 views
3

這似乎很簡單,但我不能在互聯網上找到關於它的任何信息丟棄重複的大熊貓除一列

我有一個像下面

City State Zip   Date  Description  
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices 
Earlham IA 50072-1036 2014-10-10 Compliance: Devices 
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance 

我怎樣才能消除匹配重複一個數據幀4列5列?不匹配的列是Description

其結果將是

City State Zip   Date  Description  
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices 
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance 

我在網上找到的是drop_dupilcatessubset參數可以工作,但我不確定我怎麼可以把它應用到多個列。

回答

8

你實際上已經找到了解決方案。對於多列,子集將成爲一個列表。

df.drop_duplicates(subset=['City', 'State', 'Zip', 'Date']) 

或者,只是陳述列被忽略:

df.drop_duplicates(df.columns.difference(['Description'])) 
+0

反正做到這一點,而無需鍵入出每個列標題?我的數據實際上有12列,我只是不想把它們全部放入我的文章。 – Jstuff

+0

@Jstuff我已更新帖子。 – ayhan

+0

第二種方法不起作用。 – Jstuff