2017-04-01 26 views
0

在Apache中火花,劃分的RDD與固定數目的元素的分區中的每個分區

repartition(n) - 允許將所述RDD成恰好n分區。

但是,如何將給定的RDD分區爲分區,以便所有分區(最後一個分區的例外)都具有指定數量的元素。鑑於RDD中的元素數量未知,並且.count()的成本很高。

C = sc.parallelize([x for x in range(10)],2) 
Let's say internally, C = [[0,1,2,3,4,5], [6,7,8,9]] 
C = someCode(3) 

預計:

C = [[0,1,2], [3,4,5], [6, 7, 8], [9]] 

回答