0
我是apache spark和scala的新手,並嘗試通過示例學習它。我有簡單的設置城市公交車位置(行號,時間,經度,latitute)的:如何在RDD中找到最近的記錄
9, 23/09/16 10:20, 123.3, 123.3
9, 23/09/16 10:21, 125.3, 125.3
數轉換後,我獲得對象的RDD:
class BusPosition(val line: String, val time: DateTime, val position: Point)
接下來,我想有幀的RDD
,如:
class BusFrame(
val line: String, val time1: DateTime, val time2: DateTime,
val position1: Point, val position2: Point)
每幀將加入兩個最接近的時間記錄。有誰知道如何創建這樣的設置並找到最近的鄰居?我搜索了但找不到合適的答案。
一些選項:a)重新分區,對分區進行排序並執行線性掃描,b)使用帶有滯後/超前的窗函數。 – zero323
謝謝,但沒有完全弄明白。你能給我一些簡單的代碼示例嗎? – Hejwo