0
我有一個RDD,我目前正在使用combineByKey對基本描述性統計信息(count,sum,std,mean等)進行分組和計算。它工作正常,但似乎RDD.stats()函數將做我所需要的。在分組的RDD(Spark)上調用.stats()
現在,我做了以下內容:
text_file = sc.textFile(input_source_file)
text_file.flatMap(zonal.zonal_stats)\
.combineByKey(first_combiner, new_merge, final_combine)\
.map(lambda (label, (value_sum, count, mx, mn)): "{},{},{},{},{},{},{}".format(label, value_sum, count, value_sum/count, mx, mn, mx - mn))\
.saveAsTextFile(output_path)
我怎樣才能與外的現成的.stats()函數取代combineByKey和獲得基本的統計數據發回每個組?
你能分享更多的代碼嗎?你的first_combiner,new_merge,final_combine是什麼? – artemdevel