2016-03-07 102 views
0

我最近遇到了Apache Kylin,並且很好奇它的用例是什麼。據我所知,這似乎是一個工具,旨在解決與超過10億行相關的非常具體的問題,彙總,緩存和查詢來自其他來源(HBase,Hadoop,Hive)的數據。我在這個假設中糾正了嗎?什麼是Apache Kylin用例?

+0

看看:http://www.ebaytechblog.com/2014/10/20/announcing-kylin-extreme-olap-engine-for-big-data/ –

+0

這並不真正給出通用的用例,而是解釋Ebay如何使用它(如ebay首先開發的工具)和產品架構。 –

回答

0

Apache Kylin的用例是Hadoop上的交互式大數據分析。它允許您通過3個簡單步驟以亞秒級的時間間隔查詢大型Hive表。

  1. 在星型模式中標識一組Hive表。
  2. 在離線批處理過程中從Hive表中構建一個多維數據集。
  3. 使用SQL查詢Hive表,並通過Rest API,ODBC或JDBC在秒內獲得結果。

用例相當一般,它可以快速查詢任何Hive表,只要您可以從表中定義星型模式和模型立方體即可。如果您不確定什麼是星型模式和什麼是多維數據集,請檢查Kylin terminologies

Kylin提供了ANSI SQL接口,因此您可以像過去一樣查詢Hive表。然而,一個限制是麒麟只提供彙總結果,換句話說,SQL應該包含一個「group by」子句以產生正確的結果。這通常很好,因爲大數據分析更注重彙總結果而不是單個記錄。

+0

以下用例是否有效? a)使用蜂房連接器 c)中麒麟將處理映射配置單元架構於立方體模式和執行所述地圖的使用HiveQL b)中加載數據設計一個星型架構成的Hadoop通過HiveQL d)輸出的結果/縮小查詢HBase e)使用Kylin通過Calcite to HBase執行SQL語句並將結果作爲JSON返回。 –

+0

非常接近!只需要注意步驟c)是手動的,Hive模式到多維數據集模式的映射是手動的,Kylin爲您提供了一個GUI。此外,步驟d)輸出不是特定於任何查詢的,而是Hive數據的一般索引,我們稱之爲索引「cube」。 –