出於比較的目的,假設我們有一個包含兩列「A」,「B」的表「T」。我們在一些HDFS數據庫中也有一個hiveContext。我們做一個數據幀:Spark DataFrame vs sqlContext
從理論上講,它下面的更快:
sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")
或
df.groupBy("A").sum("B")
其中「東風」是指T.對於這些簡單的各式一個數據幀的總體操作,是否有什麼理由爲什麼一個人應該比另一個更喜歡一種方法?