0
我在Spark 1.6中工作(不幸)。我有一個數據框與許多列與0和1的值。我想獲得每列1的百分比。 所以我做的:高效地獲得每列pyspark數據幀的總和
rowsNum = dfBinary.count()
dfStat = dfBinary.select([(count(when(col(c) == 1 , c))/rowsNum).
alias(c) for c in dfBinary.columns])
有沒有更有效的方式來做到這一點?也許一個內置函數與每列的總和(我沒有找到任何通過)。