星火：如何加快rdd.count（）

2017-03-07 42 views 1 likes

tempRequestsWithState is a DStream 

tempRequestsWithState.foreachRDD { rdd => 

    print (rdd.count()) 

}

計數行動採取了大量的時間和慢需要大約30分鐘將不勝感激，如果任何人可以建議的方式，因爲我們正在消耗@10,000個事件用來加快這個動作/秒也注意到我們有54個分區，每個RDD

進入這裏

來源

2017-03-07 user2359997

你可以使用'rdd.countApprox'並確保你的'RDD'的劃分是合理的 –

@RaphaelRoth你能否提供關於rdd.countApprox的更多細節我知道它的語法是countApprox（timeout = 800，confidence = 0.5 ）超時代表什麼，信心是什麼意思？ – user2359997

你爲什麼轉發這個？ http://stackoverflow.com/questions/42639455/spark-how-to-speed-up-rdd-count –

回答

的形象描述。雖然我從來沒有用過它，你可以嘗試在你的RDD使用countApprox。這似乎給你真實計數的估計要花費時間（毫秒）和置信區間（即probabilty，真正的價值在於範圍內）給定的時間：

用法示例：

val cntInterval = df.rdd.countApprox(timeout = 1000L,confidence = 0.95) 
val (lowCnt,highCnt) = (cntInterval.initialValue.low, cntInterval.initialValue.high)

來源

2017-03-07 19:57:03

相關問題

11. 如何使用星火UDF
12. Spark：rdd.countApprox（）vs rdd.count（）
13. 加入Dataframes在星火
14. 星火加入掛起
15. 添加Equinox到Eclipse火星
16. 加在星火變壞
17. 星火
18. 星火的NoSuchMethodError
19. 登錄星火
20. 星火與EMR
21. 在星火
22. java.io.FileNotFoundException在星火
23. 星火由
24. 流星火Session.set
25. Max和星火
26. 星火CombineByKey
27. 使用星火
28. 星火優化
29. 星火引擎
30. 與星火