1
我正在執行GroupBy
函數,它是「轉換」操作。什麼是RDD火花中最快的功能
我需要的是我的GroupBy功能必須立即計算的,所以我發現,調用另一個「行動」喜歡first()
或count()
操作的GroupBy然後將計算後的解決方案。
GroupBy
的運行時間等於它的+ action
操作,因此我需要一個最快的函數來最小的總運行時間!
謝謝!
我正在執行GroupBy
函數,它是「轉換」操作。什麼是RDD火花中最快的功能
我需要的是我的GroupBy功能必須立即計算的,所以我發現,調用另一個「行動」喜歡first()
或count()
操作的GroupBy然後將計算後的解決方案。
GroupBy
的運行時間等於它的+ action
操作,因此我需要一個最快的函數來最小的總運行時間!
謝謝!
我假設你正在做一個性能測試類的事情。所以如果我是正確的,你的操作返回的並不重要,你只需要執行轉換(groupby)。
我認爲first()
是我能想到的最快的rdd動作。
另一種方法是你可以(通過組)找取供改造時間單獨在spark.So的WebUI中,你可以使用任何RDD行動你想!
如果你只需要實現它,你對'groupBy'的結果做了什麼? – maasg