0
在Apache中火花,劃分的RDD與固定數目的元素的分區中的每個分區
repartition(n)
- 允許將所述RDD成恰好n
分區。
但是,如何將給定的RDD分區爲分區,以便所有分區(最後一個分區的例外)都具有指定數量的元素。鑑於RDD中的元素數量未知,並且.count()
的成本很高。
C = sc.parallelize([x for x in range(10)],2)
Let's say internally, C = [[0,1,2,3,4,5], [6,7,8,9]]
C = someCode(3)
預計:
C = [[0,1,2], [3,4,5], [6, 7, 8], [9]]