我有一個火花RDD本質上是(時間戳,id),其中時間戳是joda DateTime的形式爲yyyy/MM/dd HH:mm。 RDD具有階級性;過濾RDD的日期joda/scala/spark
case class myRDD(timestamp: org.joda.time.DateTime, id: String)
我正在使用Spark和Scala。
我想過濾數據只有一個特定的日期,即2000/01/01,並返回形式(timestamp,id)的東西,但我不確定如何使用filter()與joda時間戳。我已經創建了我想要按以下過濾的時間間隔的開始和結束;
val start = myFormat.parseDateTime("2000/01/01 00:00")
val end = myFormat.parseDateTime("2000/01/02 00:00」)
但我不知道如何將其應用於RDD,或者即使這是解決此問題的最佳方法。任何提示將非常感謝。
是時間戳的字符串或喬達日期時間? – soote
@soote時間戳是一個joda DateTime,我創建的類是窗體; 'case class rdd(timestamp:org.joda.time.DateTime,id:String)' – ellaf