不同的專欄中,我有一個的大數據幀,看起來像這樣的格式:從熊貓數據框中刪除重複,如果重複值是下一行
term_x Intersections term_y
boxers 1 briefs
briefs 1 boxers
babies 6 costumes
costumes 6 babies
babies 12 clothes
clothes 12 babies
babies 1 clothings
clothings 1 babies
這個文件有超過幾百萬行。我想要做的是削減這些冗餘行。有什麼方法可以使用熊貓去重功能以快速和Pythonic的方式消除這些副本?我目前的做法涉及迭代整個數據框,讓下一行的值,然後刪除重複的線路,但這已被證明是非常緩慢:
row_iterator = duplicate_df_selfmerge.iterrows()
_, next = row_iterator.__next__() # take first item from row_iterator
for index, row in row_iterator:
if (row['term_x'] == next['term_y']) & (row['term_y'] == next['term_x']) & (row['Keyword'] == next['Keyword']):
duplicate_df_selfmerge.drop(index, inplace=True)
next = row
如何定義'重複'?你的例子有什麼你想要的輸出? – Allen
另外你的例子沒有關鍵字列。 – IanS