我有一個像火花SQL - 聚合數據幀到一系列
+---------------+------+
|id | value|
+---------------+------+
| 1|118.0|
| 2|109.0|
| 3|113.0|
| 4| 82.0|
| 5| 60.0|
| 6|111.0|
| 7|107.0|
| 8| 84.0|
| 9| 91.0|
| 10|118.0|
+---------------+------+
ANS表想骨料或斌值的範圍0,10,20,30,40,...80,90,100,110,120
我如何在SQL或多個特定的火花SQL執行此?
目前我有一個橫向視圖連接的範圍,但這似乎相當笨拙/低效率。
離散化的分位數並不是我想要的,而是具有此範圍的CUT
。
編輯
https://github.com/collectivemedia/spark-ext/blob/master/sparkext-mllib/src/main/scala/org/apache/spark/ml/feature/Binning.scala將執行動態垃圾桶,但我寧願需要這個指定的範圍。
我已更新答案。那是你在找什麼? –
差不多。乍一看看起來相當不錯。謝謝。 –
'org.apache.spark.ml.feature.Bucketizer'採用明確提供的分割點數組。那麼你應該能夠在輸出列上進行分組。 –