Spark 1.6 vs spark 2.0生產力

-4

Databricks團隊已經談了很多關於spark 2.x爲什麼比1.6快的原因。但是爲什麼在Spark 2.x中的DataFrames上運行它可以產生較低級別的字節碼？ RDD API爲什麼不可能？Spark 1.6 vs spark 2.0生產力

此外，爲什麼僅從2.0開始製造鎢極爲重要？在Spark 1.6中做什麼錯？

-1

對於初學者第一「鎢」優化產生火花1.4被引入並在1.5和1.6延長。
Spark 2.0引入了後向不兼容的更改，由於項目管理策略，這些更改在1.x中不可接受。
結構化數據和受限語言需要更簡單的優化規則。這就是爲什麼線性代數庫或關係數據庫具有非常積極的優化的原因，而您的任意代碼則不會。

RDD API不可能出於同樣的原因，爲什麼您的最愛編譯器™不能即時應用相同的優化。這是不可能的（你是否注意到與Dataframe一起使用的代碼必須是確定性的，並且必須有助於執行計劃，否則將被刪除？）。

2017-04-01 15:35:14 user7802107

回答