0
我有如下表:分組時選擇最高計數的分類變數,
custID Cat
1 A
1 B
1 B
1 B
1 C
2 A
2 A
2 C
3 B
3 C
4 A
4 C
4 C
4 C
我需要的是通過客戶ID中,我得到了最常見的類別這樣的方式聚集(最有效的方法貓),第二頻率和第三頻率。上述輸出應該
most freq 2nd most freq 3rd most freq
1 B A C
2 A C Null
3 B C Null
4 C A Null
當在計數領帶我真的不關心什麼是第一,什麼是第二。例如,對於客戶1而言,第二大多數頻率和第三大頻率可以互換,因爲它們中的每一個僅出現一次。
任何sql都會很好,最好是hive sql。
謝謝
使用'dense_rank'取代'row_number'符合,這樣的關係唐如果它們存在,則不會以第2和第3最常見的值出現。 –
@VamsiPrabhala是的,謝謝 –
也刪除'[]'爲列別名,因爲它們在Hive中不受支持。 –