我對pysparks和rdd完全陌生。我想了解rdd是如何工作的,而且我在訪問rdd中的部分數據時遇到問題。我想從現有的rdd中選擇一些列並創建一個新的rdd。從Python中的另一個rdd創建新的rdd
一個下面的例子:
user_rdd = [Row(id=u'1', first_name=u'Steve', last_name=u'Kent', email=u'[email protected]'),Row(id=u'2', first_name=u'Margaret', last_name=u'Peace', email=u'[email protected]')]
display(user_rdd)
| email | first_name | id | last_name
| [email protected] | Steve | 1 | Kent
| [email protected] | Margaret | 2 | Peace
如何從user_rdd選擇2列,創建一個新的RDD像下面?
| id | first_name | last_name | full_name
| 1 | Steve | Kent | Steve Kent
| 2 | Margaret | Peace | Margaret Peace