2017-06-04 114 views

回答

2

Apache Hive數據倉庫軟件有助於讀取,編寫和管理駐留在分佈式存儲中的大型數據集,並使用SQL語法進行查詢。

內置在Apache Hadoop之上,配置單元提供以下功能:

  • 工具能夠方便地訪問通過SQL數據,從而使數據倉庫的任務,如提取/轉換/加載(ETL),報告和數據分析。
  • 訪問直接存儲在Apache HDFS或其他數據存儲系統(如Apache HBase)中的文件
  • 通過Hive LLAP,Apache YARN和Apache Slider進行亞秒級查詢檢索。
  • 一種機制來對各種數據格式

強加結構凡爲,Apache的火花是一種快速和通用集羣計算系統。它提供Java,Scala,Python和R中的高級API以及支持通用執行圖的優化引擎。它還支持一套豐富的高級工具,包括用於SQL的Spark SQL和結構化數據處理。

Spark SQL是用於結構化數據處理的Spark模塊,其中內存處理是其核心。使用Spark SQL,可以從任何結構化來源讀取數據,例如JSON,CSV,parquet,avro,sequencefiles,jdbc,配置單元等。

Spark SQL也可用於從現有Hive安裝中讀取數據。因此,Spark SQL是可用於處理任何結構化數據源的通用模塊。

相關問題