0
我有一個由「Events」,「Time」,「UserId」組成的日誌文件。用pySpark計算用戶事件之間的平均時間
+------------+----------------+---------+
| Events | Time | UserId |
+------------+----------------+---------+
| ClickA | 7/6/16 10:00am | userA |
+------------+----------------+---------+
| ClickB | 7/6/16 12:00am | userA |
+------------+----------------+---------+
我想爲每個用戶計算事件之間的平均時間。你們如何解決這個問題? 在傳統的編程環境中,我會經歷用戶的每個事件,並計算事件n和n-1之間的時間增量,將此值添加到數組A.然後,我將計算每個值的平均值A. 如何使用Spark做到這一點?
謝謝zero323! 你知道我該如何將這個字符串(2016/5/1 4:03:34 PM)轉換爲時間戳嗎?我找不到pyspark的正確方法。 – Ahmet
非常像這裏顯示:http://stackoverflow.com/a/36095322/1560062但你必須調整格式(https://docs.oracle.com/javase/7/docs/api/java/text /SimpleDateFormat.html) – zero323