2017-09-05 51 views
0

我有兩個數據框user_base和review_base。 User_base包含以下字段:elite,user_id,name,review_count,朋友,粉絲。在兩個數據框上執行連接和groupBy

Review_base包含fields:review_id,user_id,cool,stars,business,useful,funny。

我想查找所有用戶的評論列表,並從每個數據框中選擇一些字段。這是我的代碼片段:

val reviews_per_user = user_base.join(review_base, "user_id") 
.select(user_base("user_id"),user_base("elite"),user_base("review_count"),user_base("friends"),user_base("fans"),review_base("stars"),review_base("useful"),review_base("funny"),review_base("cool")) 
.groupBy(user_base("user_id")) 

Review_per_user是RelationalGroupedDataset類型,但我希望有一個數據幀類型與其他查詢操作它。我能做些什麼呢?

+0

樣本輸入數據和期望的輸出將幫助您快速得到答案 –

回答

0
val reviews_per_user = sqlcontext.sql("SELECT U.user_id, R.review_id FROM User_base U LEFT JOIN Review_base R ON U.user_id = R.user_id GROUP BY U.user_id, R.review_id) 
相關問題