2016-01-29 43 views
0

我有一個數據幀DF:如何刪除數據框中忽略空格的重複?

print df 

    Name | Company  | 
    Mark |XYZ Corp  | 
    Mark | XYZ Corp | 

    df = df.drop_duplicates() 
    print df 

    Name | Company  | 
    Mark |XYZ Corp  | 
    Mark | XYZ Corp | 

我想忽略任何領導或前面的空格和下降重複。

+0

您必須首先'lstrip'和'rstrip',然後刪除重複項,但是您想要修改數據還是在刪除重複項後留下空格? 「A B''和'A B''以及'A-B''和'A-B''會做什麼? – EdChum

+0

這是一個錯字。我不打算輸入「A-B」和「A-B」。我想修改數據。我會嘗試應用lstrip和rstrip,這應該可以做到 –

回答

1

使用矢量化str.strip,然後你可以調用drop_duplicates

In [271]: 
df['Company'] = df['Company'].str.strip() 
df.drop_duplicates() 

Out[271]: 
    Name Company 
0 Mark XYZ Corp 
1

您需要使用strip例如丟棄重複之前刪除空白

for i, row in df.iterrows(): 
    df.loc[i, "Company"] = df.loc[i, "Company"].strip()