0
我有兩個dataframes這樣的:添加隨機樣本來自一個火花數據幀到另一個
| User |
------
| 1 |
| 2 |
| 3 |
和
| Articles |
----------
| 'A' |
| 'B' |
| 'C' |
什麼是每一個用戶2 articles
隨機分配一個直觀的方式? 輸出數據幀可能是這樣的:
| User | Articles |
-----------------
| 1 | 'A' |
| 1 | 'C' |
| 2 | 'C' |
| 2 | 'B' |
| 3 | 'C' |
| 3 | 'A' |
這裏,將產生這兩個dataframes代碼:
u =[(1,), (2,), (3,)]
rdd = sc.parallelize(u)
users = rdd.map(lambda x: Row(user_id=x[0]))
users_df = sqlContext.createDataFrame(users)
a = [('A',), ('B',), ('C',), ('D',), ('E',)]
rdd = sc.parallelize(a)
articles = rdd.map(lambda x: Row(article_id=x[0]))
articles_df = sqlContext.createDataFrame(articles)
文章數據框很大嗎? – Psidom
它很小 - 有數百行。用戶大約在20萬行左右 – tchoedak