Q
火花流聚合
-2
A
回答
1
您可以將JSON放入數據框/數據集並執行以下聚合操作。
- GROUPBY
- groupByKey
- 彙總
- 立方體
火花SQL可自動推斷JSON數據集的模式和裝載它作爲一個數據集[行]。此轉換可以使用String的RDD或JSON文件上的SparkSession.read.json()完成。
val json_path = "dir/example.json"
val jsonDF = spark.read.json(json_path)
jsonDF.groupBy("col1").count().show()
+0
感謝@Arvind ..這對我的作品......現在還有另外一個挑戰。我希望在整個批處理時間間隔內有一個特定數字字段的平均值,但該時間窗口中的數據會被分成多個RDD。而且我可以通過foreachRDD完成所有這些計算。有沒有辦法將所有RDDs應用到一起? –
+1
您可以合併所有RDD或數據框,將其註冊爲臨時表並執行SQL以執行聚合操作。 –
相關問題
- 1. 卡夫卡火花流多個聚合
- 2. 火花流整合水槽
- 3. 應用聚合函數與火花流scala
- 4. 聚結在火花
- 5. 蟒蛇火花聚合函數
- 6. 沒有聚合的火花轉軸
- 7. 火花數據幀聚合階
- 8. 火花定製聚合> = 2.0(階)
- 9. 火花流
- 10. 火花流update_state_by_keys
- 11. 火花流
- 12. 卡夫卡火花流媒體整合
- 13. 火花:聚集基於列
- 14. 使用火花流
- 15. 使用火花流
- 16. 火花流文件流
- 17. 火花流HBase的錯誤
- 18. 火花流不工作
- 19. 「java.io.NotSerializableException:org.apache.spark.streaming.StreamingContext」當執行火花流
- 20. 火花流+卡桑德拉
- 21. 什麼是在火花流
- 22. 蟒蛇火花流輸出
- 23. jsontostructs在火花結構流
- 24. 學習火花流媒體
- 25. 火花流微配料
- 26. EMR和S3源火花流
- 27. 卡夫卡+火花流:kafka.common.OffsetOutOfRangeException
- 28. 試圖瞭解火花流流
- 29. 火花SQL - 聚合數據幀到一系列
- 30. 從聚合後的火花表中讀取和寫入
http://spark.apache.org/docs/latest/streaming-programming-guide.html – maasg