0
如果我有一個每分鐘具有卷的RDD,例如將時間序列數據映射到以前的數據點和平均值
(("12:00" -> 124), ("12:01" -> 543), ("12:02" -> 102), ...)
我想去約映射,要在這一分鐘通氣量,前一分鐘,前5分鐘平均成交量的體積數據集。例如。
(("12:00" -> (124, 300, 245.3)),
("12:01" -> (543, 124, 230.2)),
("12:02" -> (102, 543, 287.1)))
輸入RDD可以是RDD[(DateTime, Int)]
和輸出RDD[(DateTime, (Int, Int, Float))]
。
有什麼好方法可以做到這一點?
你的資料已完成或有可能缺失了一些資料? – zero323
可能存在差距,我會默認爲零。我不介意解決方案是否處理此問題。 –
在純scala中,我將轉換爲DateTime並使用SortedMap。你的數據集有多大? – Reactormonk