我是新來的火花,並嘗試寫一些基於火花和火花流的示例代碼。如何在火花流中排序數據
到目前爲止,我已經實現了火花排序功能,這裏是代碼:
def sort(listSize: Int, slice: Int): Unit = {
val conf = new SparkConf().setAppName(getClass.getName)
val spark = new SparkContext(conf)
val data = genRandom(listSize)
val distData = spark.parallelize(data, slice)
val result = distData.sortBy(x => x, true)
val finalResult = result.collect()
val step5 = System.currentTimeMillis()
printlnArray(finalResult, 0, 10)
spark.stop()
}
/**
* generate random number
* @return
*/
def genRandom(listSize: Int): List[Int] = {
val range = 100000
var listBuffer = new ListBuffer[Int]
val random = new Random()
for (i <- 1 to listSize) listBuffer += random.nextInt(range)
listBuffer.toList
}
def printlnArray(list: Array[Int], start: Int, offset: Int) {
for (i <- start until start + offset) println(">>>>>>>>> list : " + i + " | " + list(i))
}
我對火花流實現某種功能的麻煩。據我所知,火花RDD提供火花核心中的排序API,但火花流中沒有這樣的API,有誰知道該怎麼做?謝謝
這是一個轉儲問題,但在網絡上谷歌後,我找不到正確的答案。如果有人知道如何解決它,謝謝你的幫助。
做什麼?後者是 - 就流加工而言 - 一般來說afaik是不可能的。 – dwegener