我有以下代碼,試圖輸出RDD到1000個文件與等文件大小。但是,我仍然只有70個輸出文件,文件大小非常不同(範圍從50M到2G)。爲了使輸出文件具有相同的大小,是否需要執行額外的步驟?謝謝!Spark:如何將輸出(saveAsTextFile)保存爲大小相同的文件?
val myRDD = input.flatMap { t => ??? }
.reduceByKey { (t1, t2) => ??? ; t3 }
.sortBy(-_._2.size)
.repartition(1000)
.map(t => (t._1 + "_" + t._2.size, t._2.toString))
myRDD.saveAsTextFile("myOutput", classOf[GzipCodec])
會ü介紹如何使用它的例子?謝謝! – Edamame
現在我很少有時間,所以我找到了一個現成的解決方案,請驗證它是否可以。 – Niemand