1
問題標題可能太隱含。 比方說,我們有一個火花數據幀:如何計算基於另一列的值數量?
user_ID phone_number
--------------------------------
A 1234567
B 1234567
C 8888888
D 9999999
E 1234567
F 8888888
G 1234567
而且我們需要來算,每個USER_ID,多少USER_ID的份額相同PHONE_NUMBER它。對於上市前表,所期望的結果應該是:
user_ID count_of_userID_who_share_the_same_phone_number
----------------------------------------------------------------
A 4
B 4
C 2
D 1
E 4
F 2
G 4
它可以通過寫spark.sql(query)
自連接查詢來實現,但性能相當心臟破。 任何建議如何獲得更快的實施?謝謝:)
剛試過,遠遠超過簡單的spark.sql查詢更快! thx – XXXShao
很高興它有幫助。 –