帶時間的Spark請求

-1

我想要求以1小時的間隔平均查找一天中最繁忙的時間。帶時間的Spark請求

我在格式爲「％d /％b /％Y：％H：％M：％S」的數據框中顯示行日期。

我開始這樣的：

mostBusyTimeDF = logDF.groupBy("date") ...

例如輸入：

   date 
2015-12-01 21:04:00 
2015-12-01 10:04:00 
2015-12-01 21:07:00 
2015-12-01 21:34:00

在輸出：

   date   count(1 hour interval) 
2015-12-01 21:04:00       3 
2015-12-01 10:04:00       1

我不知道以後我該怎麼辦呢..

你能幫我嗎？

非常感謝

來源

2016-11-26 JackR

你能爲我們提供樣品的輸入和輸出？你想創建例如上午1點--10點的請求，上午2點 - 20點的請求等？ –

@T.Gawęda我編輯我的問題 – JackR

計數應該只在給定小時內的第一個日期？ –

您可以使用內置的星火日期函數：

from pyspark.sql.functions import * 

logDF = sqlContext.createDataFrame([("2015-12-01 21:04:00", 1), ("2015-12-01 10:04:00", 2), ("2015-12-01 21:07:00", 9), ("2015-12-01 21:34:00", 1)], ['somedate', 'someother']) 

busyTimeDF = logDF.groupBy(year("somedate").alias("cnt_year"), \ 
    month("somedate").alias("cnt_month"), \ 
    dayofmonth("somedate").alias("cnt_day"), \ 
    hour('somedate').alias("cnt_hour")) \ 
     .agg(functions.count("*").alias("cntHour")) 

cond = [busyTimeDF.cnt_year == year(logDF.somedate), \ 
    busyTimeDF.cnt_month == month(logDF.somedate), \ 
    busyTimeDF.cnt_day == dayofmonth(logDF.somedate), \ 
    busyTimeDF.cnt_hour == hour(logDF.somedate)] 

busyTimeDF.join(logDF, cond).select('somedate', 'cntHour').show()

來源

2016-11-26 23:12:19

非常感謝我瞭解的所有人:) – JackR

帶時間的Spark請求

回答

相關問題