Spark類別數據摘要統計

對於連續數據，可以使用RDD.map(x => x.scores(0)).stats()來計算摘要統計量。Spark類別數據摘要統計

這給像導致 org.apache.spark.util.StatCounter = (count: 4498289, mean: 0.028091, stdev: 2.332627, max: 22.713133, min: -36.627933)

如何實現在星火分類數據類似的結果？（不同值的計數，最高值的個別計數等）

2015-04-07 Joel

經過進一步研究，我發現如何獲得分類數據的直方圖。
如果任何人有興趣....

val countColumn = parsedLines.map(_.ColumnName).countByValue() countColumn.toSeq.sortBy(_._2).reverse.foreach(println)

這將打印列，其計數的每個不同的值。

2015-04-13 14:57:58 Joel

回答