2017-04-01 69 views
-4

Databricks團隊已經談了很多關於spark 2.x爲什麼比1.6快的原因。 但是爲什麼在Spark 2.x中的DataFrames上運行它可以產生較低級別的字節碼? RDD API爲什麼不可能?Spark 1.6 vs spark 2.0生產力

此外,爲什麼僅從2.0開始製造鎢極爲重要?在Spark 1.6中做什麼錯?

Spark 2.0 impruvments

回答

-1
  • 對於初學者第一 「鎢」 優化產生火花1.4被引入並在1.5和1.6延長。

  • Spark 2.0引入了後向不兼容的更改,由於項目管理策略,這些更改在1.x中不可接受。

  • 結構化數據和受限語言需要更簡單的優化規則。這就是爲什麼線性代數庫或關係數據庫具有非常積極的優化的原因,而您的任意代碼則不會。

    RDD API不可能出於同樣的原因,爲什麼您的最愛編譯器™不能即時應用相同的優化。這是不可能的(你是否注意到與Dataframe一起使用的代碼必須是確定性的,並且必須有助於執行計劃,否則將被刪除?)。