2017-03-14 90 views
0

我有我從輸入創建一個類似以下內容的RDD:我做了GROUPBY像下面pyspark:獲得GROUPBY的第二個元素的尺寸上RDD

0 1 
0 2 
1 2 
1 3 

rdd2 = rdd1.groupBy(lambda x: x[0]) 

現在RDD2會是這樣的:

[(0,[1,2]),(1,[2,3])] 

我的問題是,我怎麼能得到與每個元素相關聯的列表的大小?

感謝

回答

1

您可以使用mapValueslen

rdd2.mapValues(list).mapValues(len) 
相關問題