因爲你沒有發佈你的代碼,我只能給你一個答案,只關於它的工作方式。
- 裝入CSV文件導入使用其中在一個單獨的DF1一個occurence> 1使用pandas.DataFrame.drop_duplicates像pandas.read_csv
保存所有值的pd.Dataframe:
DF1 = df.drop_duplicates(保持=」第一)
- >這將返回一個數據幀,其僅包含具有重複值的第一次出現的行例如,如果該值1000是在5行僅第一行將b中。當其他人被拋棄時,他們回來了。
- >應用df1.shape [0]會返回您df中重複值的數量。
3,如果你想存儲包含在你所要做的水木清華這樣一個單獨的CSV文件中的「重複值」 DF的所有行:
df=pd.DataFrame({"A":[0,1,2,3,0,1,2,5,5]}) # This should represent your original data set
print(df)
df1=df.drop_duplicates(subset="A",keep="first") #I assume the column with the duplicate values is columns "A" if you want to check the whole row just omit the subset keyword.
print(df1)
list=[]
for m in df1["A"]:
mask=(df==m)
list.append(df[mask].dropna())
for dfx in range(len(list)):
name="file{0}".format(dfx)
list[dfx].to_csv(r"YOUR PATH\{0}".format(name))
您好,歡迎StackOverflow上。請[見這裏](http://stackoverflow.com/help/how-to-ask)學習如何編寫有效的問題,並[在這裏](http://stackoverflow.com/help/mcve)學習如何創建最小,完整和可驗證的示例。 – cmaher