Python熊貓在csv文件中刪除重複無標題

對於愚蠢的問題感到抱歉，我對python和pandas是新手。Python熊貓在csv文件中刪除重複無標題

想象我有一些數據，每一行的CSV文件，例如：

data1, data2, data3, data4

沒有標題，只是數據，我需要的，如果

消除這些文件中的某些行

(row1.data3 and row1.data4) == (row2.data3 and row2.data4)

整行被刪除。

我該如何做到這一點？

我曾嘗試使用remove_duplicates但沒有標題，我不知道該怎麼做。

歡呼

來源

2017-05-07 user1583007

只是爲了確保您在remove_duplicates之後重置數據框，對不對？除非你問它，否則remove_duplicates不能正常工作。標題在這裏並不重要。如果一行是另一行的副本，並且它們是相同的數據類型，remove_duplicates應刪除它。 –

向我們展示您到目前爲止的代碼。 –

比方說，你恰好有一個df無頭：

df = pd.read_csv("./try.csv", header=None) 
df 
# The first row is integers inserted instead of missing column names 
    0 1 2 
0 1 1 1 
1 1 1 1 
2 2 1 3 
3 2 1 3 
4 3 2 3 
5 3 3 3

然後，在列的子集可以drop_duplicates：

df.drop_duplicates([0]) 
    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3

或

df.drop_duplicates([0,1]) 

    0 1 2 
0 1 1 1 
2 2 1 3 
4 3 2 3 
5 3 3 3

不要忘記將結果分配給新變量或添加inplace=True

來源

2017-05-07 03:47:51

@ user1583007爲什麼不接受答案，如果它適合你？ –

Python熊貓在csv文件中刪除重複無標題

回答

相關問題