Spark和Scala的新手。試圖達到以下。我的消息看起來像以下(鑰匙,ID,版本,dataObject時)星火羣組rdd由配對RDD上的鑰匙和羣組組成,並從每個羣組中挑選最新的
val transformedRDD = processedMessages.flatMap(message => {
message.isProcessed match {
case true => Some(message.key, message.id, message.version, message)
case false => None
}
}).groupByKey
我想組由ID對每個消息並獲得最新版本的消息,然後groupbykey,然後調用它看起來像下面
預定方法Ingest(key,RDD[dataObject])
這並不回答你的問題,但也許會幫助你選擇正確的模塊,以滿足您的需求。爲什麼你使用Spark Streaming?如果你是_「新的spark和scala。」_ ?! –
我在問題本身中沒有看到任何Spark Stream參考。 –