我想刪除每個組內的數據庫中的冗餘行(在本例中爲數據源),我將其定義爲包含嚴格少於其他行的信息或不同信息的行。刪除組內的冗餘條目
例如在下表中。第1行是冗餘的,因爲同一組中的另一行0包含與它完全相同的信息,但包含更多數據。
出於同樣的原因,第6行是冗餘的,組中的所有其他行3,4和5都包含更多信息。但是,我保留了第4行和第5行,因爲它們與組中其他行有一些額外的不同信息。
datasource city country
0 1 Shallotte US
1 1 None US
2 2 austin US
3 3 Casselberry US
4 3 None AU
5 3 Springfield None
6 3 None None
時有更多的列,行0和1,4是不同的信息的一個例子。但第2行和第3行(或第1行)包含冗餘信息。
datasource city country Count
0 1 None US 11
1 1 austin None None
2 1 None None 11
3 1 austin None None
4 1 None CA None
預計輸出
datasource city country Count
0 1 None US 11
1 1 austin None None
4 1 None CA None
有,我可以爲任意數量的列達到大熊貓或SQL(PostrgeSQL)這樣的邏輯簡單的方法是什麼?
謝謝,但是這不工作,當有更多的列,我已經給了一個例子很抱歉,如果我的問題一開始並不清楚 – user113531
先生你對冗餘數據的想法有點難以理解。你可以添加你想要的預期輸出。 – Dark