我有一大堆的特點是note
列在火花事件(用戶點擊/動作/按下按鈕)的:Sessionization火花
>>> df.show(20)
+-------+-------------+------------+------+
| user| timestamp| note|action|
+-------+-------------+------------+------+
|2376466|1458580817381|event #1 ...|UPDATE|
|2376466|1458580822034|event #1 ...|UPDATE|
|2376466|1458580822112|event #2 ...|UPDATE|
|2376466|1458580822166|event #2 ...|UPDATE|
|2376466|1458580822216|event #2 ...|UPDATE|
|2376466|1458580822225|event #2 ...|UPDATE|
|2376466|1458580822651|event #1 ...|UPDATE|
|2376466|1458580822660|event #1 ...|UPDATE|
+-------+-------------+------------+------+
我想知道一個「會話」的持續時間特別是note
。例如,事件#2開始於1458580822112並結束於1458580822225,因此持續時間將是..225 - ..112 = 113
毫秒。是否有任何火花助手或快捷方式將數據組織到「」會話「或其他方式來提取這樣的信息?或者想法是不斷地向每行添加額外的狀態信息並在會話標識符列準備就緒時將其捲起?
注意:同一類型的多個音符應該被認爲是單獨的會話
據我瞭解你的意圖可能與窗口功能,但它不漂亮或特別有效。儘管如此,我已經發布了一些類似問題的答案。總的來說,實現像這樣的RDDs(可能還包含數據集)可能更容易,但這是一個相當廣泛的問題。 – zero323
你介意在表面挖掘類似的問題嗎? – Oleksiy
如果我不忘記,我會在明天搜索,但它幾乎是三個基本步驟:1)確定在「會話」之間切換(滯後)2)添加會話標識符(切換點的累計和)3)某些統計信息 – zero323