2015-04-07 41 views
0

對於連續數據,可以使用RDD.map(x => x.scores(0)).stats()來計算摘要統計量。Spark類別數據摘要統計

這給像導致 org.apache.spark.util.StatCounter = (count: 4498289, mean: 0.028091, stdev: 2.332627, max: 22.713133, min: -36.627933)

如何實現在星火分類數據類似的結果? (不同值的計數,最高值的個別計數等)

回答

0

經過進一步研究,我發現如何獲得分類數據的直方圖。
如果任何人有興趣....

val countColumn = parsedLines.map(_.ColumnName).countByValue() countColumn.toSeq.sortBy(_._2).reverse.foreach(println)

這將打印列,其計數的每個不同的值。