1
我已經做了這個代碼,我的問題是功能強制數據類型,我怎樣才能將所有列包括在同一個數據集列時間戳,另一個問題是如何除了列時間戳以外,對所有列應用函數avg。 非常感謝應用函數在所有列火花
val df = spark.read.option("header",true).option("inferSchema", "true").csv("C:/Users/mhattabi/Desktop/dataTest.csv")
val result=df.withColumn("new_time",((unix_timestamp(col("time")) /300).cast("long") * 300).cast("timestamp"))
result("value").cast("float")//here the first question
val finalresult=result.groupBy("new_time").agg(avg("value")).sort("new_time")//here the second question about avg
finalresult.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").save("C:/mydata.csv")
難道你不能只爲你想投的每一列添加'withColumn'嗎?和'agg'中的列一樣多的'avg'? – Mariusz
@Mariusz數據集非常大,有很多列的問題,只想做一些除了列時間以外的所有列 – user7394882