4
我正在做Spark(Python)的第一步,我正在努力處理groupByKey()
中的迭代器。我無法總結的價值觀:我的代碼如下所示:如何在PySpark中的迭代器中求和值groupByKey()
example = sc.parallelize([('x',1), ('x',1), ('y', 1), ('z', 1)])
example.groupByKey()
x [1,1]
y [1]
z [1]
如何對Iterator
的總和?我想是這樣之下,但它不工作
example.groupByKey().map(lambda (x,iterator) : (x,sum(iterator))
example.groupByKey().map(lambda (x,iterator) : (x,list(sum(iterator)))