我有一個數據集,看起來有點像這樣:Python的大熊貓 - 如果某些值爲空行合併
ID Name Address Zip Cost
1 Bob the Builder 123 Main St 12345
1 Bob the Builder $99,999.99
2 Bob the Builder 123 Sub St 54321 $74,483.01
3 Nigerian Prince Area 51 33333 $999,999.99
3 Pinhead Larry Las Vegas 31333 $11.00
4 Fox Mulder Area 51 $0.99
,其中丟失的數據是正常的,除非很明顯,他們可以合併。我的意思是,而不是上面的數據集,我想合併ID和名稱都相同的行,其他功能可以填充對方的空白。例如,上面的數據集將成爲:
ID Name Address Zip Cost
1 Bob the Builder 123 Main St 12345 $99,999.99
2 Bob the Builder 123 Sub St 54321 $74,483.01
3 Nigerian Prince Area 51 33333 $999,999.99
3 Pinhead Larry Las Vegas 31333 $11.00
4 Fox Mulder Area 51 $0.99
我已經想過使用df.groupby(["ID", "Name"])
然後連接字符串,因爲缺失值是空字符串,但沒有得到運氣吧。
數據已被刮掉網站,所以他們不得不經過大量清理才能到達此處。我想不出一個解決這個問題的優雅方法!
謝謝你的最後一排了很多!當我在數據框上做一個groupby()時,我注意到了這種模式,但並不知道如何處理它。我應該澄清一些限制因素 - 邊緣案例已經被處理了,所以它只有兩行重複的設置。 – kug3lblitz