非常感謝您的閱讀。刪除列值已交換的重複行
我有一個大約200,000行和46列的熊貓數據框。這些列中的23個以「_1」結尾,另外23個以「_2」結尾。例如:
forename_1 surname_1 area_1 forename_2 surname_2 area_2
george neil g jim bob k
jim bob k george neil g
pete keith k dan joe q
dan joe q pete keith k
ben steve w richard ed p
charlie david s graham josh l
我有使用drop_duplicates成功刪除重複的,但現在希望刪除是重複行,但該組他們在(1或2)已經被反轉。
也就是說,對於一行,我想比較forename_1,surname_1和area_1中的組合值與其他所有行的forename_2,surname_2和area_2中的組合值。
的一種考驗,我希望利用會是這樣:
如果 「forename_1 + surname_1 + area_1 + forename_2 + surname_2 + area_2」=「forename_2 + surname_2 + area_2 + forename_1 + surname_1 + area_1「, 然後去除重複
我想只保留第一個重複行的x重複數(例如保持='第一')。
爲了幫助說明,有兩種情況以上,其中一個重複的需要移除:
forename_1 surname_1 area_1 forename_2 surname_2 area_2
george neil g jim bob k
jim bob k george neil g
forename_1 surname_1 area_1 forename_2 surname_2 area_2
pete keith k dan joe q
dan joe q pete keith k
喬治+尼爾+ G +吉姆+擺錘+ K =喬治+尼爾+ G +吉姆+鮑勃+ ķ等等
在每種情況下,兩個第二排將被刪除,這意味着我的預期產出將是:
forename_1 surname_1 area_1 forename_2 surname_2 area_2
george neil g jim bob k
pete keith k dan joe q
ben steve w richard ed p
charlie david s graham josh l
我已經看到,在R 2與此交易的答案,但那裏還有一種方式是可以在Python中完成的嗎?
Compare group of two columns and return index matches R
非常感謝。
非常感謝您的回答,我確實在考慮排序問題以前的答案會擺脫一些沒有重複的對,我會盡快測試這個更新的答案,並讓你知道它是否成功,謝謝! – Charlie0210
當這個方法也有整數值的列時, t似乎我可能不得不將它們轉換爲字符串,然後再進行排序?非常感謝您的幫助 – Charlie0210
上述方法應該可以在數值列值AFAICS下正常工作。但是如果你可以發佈一個演示這個問題的例子,我們會看看它。 – unutbu