0
我正在玩一些關於cluster的數據,想要做一些聚合 - 沒有太複雜,但比sum更復雜,加入並計數區別。我已經在Hive和Spark中使用Scala實現了這種聚合,並且想要比較執行時間。Hive(on Tez)和Spark之間針對我的特殊用例進行的性能基準測試
當我從網關提交腳本時,linux時間函數使我的實時時間小於sys時間,這是我的預期。但我不確定應該選擇哪一個作爲適當的比較。也許只是使用sys.time並運行這兩個查詢幾次?這是可以接受的,或者我在這種情況下是完整的noob?