2
我有一個相對簡單的問題。Spark分割RDD分塊和連接
我有一個大的Spark RDD [String](包含JSON)。在我的用例中,我想將N個字符串分組(連接)爲一個新的RDD [String],以便它的大小爲oldRDD.size/N。
僞例如:
val oldRDD : RDD[String] = ['{"id": 1}', '{"id": 2}', '{"id": 3}', '{"id": 4}']
val newRDD : RDD[String] = someTransformation(oldRDD, ",", 2)
newRDD = ['{"id": 1},{"id": 2}','{"id": 3},{"id": 4}']
val anotherRDD : RDD[String] = someTransformation(oldRDD, ",", 3)
anotherRDD = ['{"id": 1},{"id": 2},{"id": 3}','{"id": 4}']
我已經找了一個類似的案件,但無法找到任何東西。
謝謝!
這是一個很好的答案!但是在這種情況下'n'不會是組數;相反,它是組的*大小*。如果你希望'n'是組的*號*,你需要使用模運算符而不是除法,並且注意元素的排序不會被保留。 – vaerek