1
我們已經流應用具有計數動作星火:如何加快rdd.count()
tempRequestsWithState is a DStream
tempRequestsWithState.foreachRDD { rdd =>
print (rdd.count())
}
計數行動採取了大量的時間和慢需要大約30分鐘將不勝感激,如果任何人可以建議的方式,因爲我們正在消耗@10,000個事件用來加快這個動作/秒也注意到我們有54個分區,每個RDD
進入這裏
你可以使用'rdd.countApprox'並確保你的'RDD'的劃分是合理的 –
@RaphaelRoth你能否提供關於rdd.countApprox的更多細節我知道它的語法是countApprox(timeout = 800,confidence = 0.5 )超時代表什麼,信心是什麼意思? – user2359997
你爲什麼轉發這個? http://stackoverflow.com/questions/42639455/spark-how-to-speed-up-rdd-count –