我在Hive方面經驗並不多,目前我正在用Scala學習Spark。我很想知道在Tez上Hive是否比SparkSQL更快。我搜索與測試結果很多論壇,但他們比較了星火的老版本,其中大部分是下面Tez的ORC性能是否比Spark SQL for ETL更好?
- ORC會做同樣的拼花在星火
- TEZ引擎會給寫在2015年彙總要點像火花引擎
- 加入更好的性能,更好的/在蜂巢的速度比星火
我覺得Hortonworks支持比Spark和Cloudera的反之亦然更多的蜂房。
樣品鏈接:
起初我以爲星火將快於,因爲它們在內存中執行的任何事情。閱讀一些文章之後我就有點不知怎的,現有的蜂巢也越來越即興與像TEZ,ORC,LLAP等新概念
目前使用PL/SQL運行Oracle和遷移到大數據,因爲體積越來越增加。我的要求是一種ETL批處理,幷包含每週批次處理中涉及的數據詳細信息。數據將很快增加。
輸入/查找數據是CSV /文本格式,並更新到表
,其具有500萬行和30列兩個輸入表查找用於產生的每列的表輸出表,其中包含約1000萬行和220列。
- 多個連接涉及像內部和左外部,因爲許多查找使用的表。
請注意下面哪一種方法,我應該選擇以獲得更好的性能和易讀性,並且易於在列中包含次要更新以供將來的生產部署使用。
方法1:
- 蜂房上TEZ與ORC表
- 的Python UDF通TRANSFORM選項
- 與性能調節等地圖加入加入
方法2:
- SparkSQL與平面格式從文本轉換/ CSV
- 斯卡拉UDF
- 希望我們能夠執行多種內,左外連接在星火
很容易得出錯誤的結論。 1. Hive和tez有很多影響性能的配置。 2.良好的SQL比工具,文件格式和執行引擎更重要。 – leftjoin