我正在使用Spark 1.3。我想做一些基於日期的計算。在下面的數據集中,對於每個唯一的ID,我想獲取beging_date最大的記錄(最新記錄)。另外,當我從文件讀取數據時,是否應該將它轉換爲TimestampType(import org.apache.spark.sql.types.TimestampType)?SparkSQL日期時間函數
下面是一些示例數據:
ID beging_date END_DATE
1 2016年1月1日20:06:00.0 2016年1月4日20:06:00.0
2 1 /二千○十三分之五20:06:00.0 2016年1月8日20:06:00.0
1 2013年1月6日20:06:00.0 2016年1月18日20:06:00.0
3 2/1/2013 20:06:00.0 2/5/2016 20: 06:00.0
1二零一三年一月二十零日20:06:00.0 20 2016年2月4日:06:00.0
3 2013年3月5日20:06:00.0 2016年3月8日20: 06:00.0
這裏是所期望的輸出:
ID beging_date END_DATE
1二零一三年一月二十零日20:06:00.0 20 2016年2月4日:06:00.0
2 2013年1月5日20:06:00.0 2016年1月8日20:06:00.0
3 2013年3月5日20:06:00.0 2016年3月8日20:06:00.0