Q

pyspark：獲得GROUPBY的第二個元素的尺寸上RDD

pyspark
rdd

2017-03-14 90 views 0 likes

0

我有我從輸入創建一個類似以下內容的RDD：我做了GROUPBY像下面pyspark：獲得GROUPBY的第二個元素的尺寸上RDD

：

rdd2 = rdd1.groupBy(lambda x: x[0])

現在RDD2會是這樣的：

[(0,[1,2]),(1,[2,3])]

我的問題是，我怎麼能得到與每個元素相關聯的列表的大小？

感謝

2017-03-14 ahajib

A

回答

1

您可以使用mapValues和len：

rdd2.mapValues(list).mapValues(len)

2017-03-14 22:45:41 1d12dj02

相關問題