0
我想在Spark上創建數據幀的性能結果統計信息。我在groupBy之後調用count()動作並測量它花費的時間。但是,我發現如果我使用collect()而不是count(),結果花費了10倍多的時間。但是,我發現如果我使用collect()而不是count(),結果花費了10多倍的時間。爲什麼?我想衡量Spark的數據集合性能。計數還是收集行動?
而且,如果我正在執行像上面那樣的基準測試,則應該使用count()或collect()的哪種方法。
謝謝。
但是如果我使用Spark Thrift Server - Hive,它會以與count相同的時間獲取groupby查詢的結果。 – Patel
那麼也許在這種情況下,第一點是收集速度慢得多的原因。 – Tim
非常感謝。我認爲是這樣,因爲我的火花驅動程序在我的機器上,而且工作人員在遠程分佈式羣集上。 – Patel