0
我有我從輸入創建一個類似以下內容的RDD:我做了GROUPBY像下面pyspark:獲得GROUPBY的第二個元素的尺寸上RDD
0 1
0 2
1 2
1 3
:
rdd2 = rdd1.groupBy(lambda x: x[0])
現在RDD2會是這樣的:
[(0,[1,2]),(1,[2,3])]
我的問題是,我怎麼能得到與每個元素相關聯的列表的大小?
感謝
我有我從輸入創建一個類似以下內容的RDD:我做了GROUPBY像下面pyspark:獲得GROUPBY的第二個元素的尺寸上RDD
0 1
0 2
1 2
1 3
:
rdd2 = rdd1.groupBy(lambda x: x[0])
現在RDD2會是這樣的:
[(0,[1,2]),(1,[2,3])]
我的問題是,我怎麼能得到與每個元素相關聯的列表的大小?
感謝
您可以使用mapValues
和len
:
rdd2.mapValues(list).mapValues(len)