2016-08-01 51 views

回答

1

只需使用sum,您只需將數據獲取到列表中即可。

例如

sc.parallelize([('id', [1, 2, 3]), ('id2', [3, 4, 5])]) \ 
    .flatMap(lambda tup: tup[1]) \ # [1, 2, 3, 3, 4, 5] 
    .sum() 

輸出18

同樣,只需使用values()來獲取第二列作爲它自己的RDD。

sc.parallelize([('id', 6), ('id2', 12)]) \ 
    .values() \ # [6, 12] 
    .sum() 
+0

如果有和,爲什麼還要摺疊? – zero323

+1

@ zero323習慣更詳細,我想:) –