2017-05-07 113 views
1

對於愚蠢的問題感到抱歉,我對python和pandas是新手。Python熊貓在csv文件中刪除重複無標題

想象我有一些數據,每一行的CSV文件,例如:

data1, data2, data3, data4 

沒有標題,只是數據,我需要的,如果

消除這些文件中的某些行
(row1.data3 and row1.data4) == (row2.data3 and row2.data4) 

整行被刪除。

我該如何做到這一點?

我曾嘗試使用remove_duplicates但沒有標題,我不知道該怎麼做。

歡呼

+0

只是爲了確保您在remove_duplicates之後重置數據框,對不對?除非你問它,否則remove_duplicates不能正常工作。 標題在這裏並不重要。如果一行是另一行的副本,並且它們是相同的數據類型,remove_duplicates應刪除它。 –

+0

向我們展示您到目前爲止的代碼。 –

回答

2

比方說,你恰好有一個df無頭:

df = pd.read_csv("./try.csv", header=None) 
df 
# The first row is integers inserted instead of missing column names 
    0 1 2 
0 1 1 1 
1 1 1 1 
2 2 1 3 
3 2 1 3 
4 3 2 3 
5 3 3 3 

然後,在列的子集可以drop_duplicates

df.drop_duplicates([0]) 
    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3 

df.drop_duplicates([0,1]) 

    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3 
5 3 3 3 

不要忘記將結果分配給新變量或添加inplace=True

+0

@ user1583007爲什麼不接受答案,如果它適合你? –