2015-04-22 57 views
1

我正在執行GroupBy函數,它是「轉換」操作。什麼是RDD火花中最快的功能

我需要的是我的GroupBy功能必須立即計算的,所以我發現,調用另一個「行動」喜歡first()count()操作的GroupBy然後將計算後的解決方案。

GroupBy的運行時間等於它的+ action操作,因此我需要一個最快的函數來最小的總運行時間!

謝謝!

+0

如果你只需要實現它,你對'groupBy'的結果做了什麼? – maasg

回答

0

我假設你正在做一個性能測試類的事情。所以如果我是正確的,你的操作返回的並不重要,你只需要執行轉換(groupby)。
我認爲first()是我能想到的最快的rdd動作。

另一種方法是你可以(通過組)找取供改造時間單獨在spark.So的WebUI中,你可以使用任何RDD行動你想!