2016-11-09 20 views
0

我們有一個擁有180億行和100列以上的OLAP表,並且Hive中的卷接近8TB。大多數列都是維度,我們也有很少的指標列。我們希望構建一個實時系統支持ad-hoc查詢來運行儀表板應用程序,其中查詢應該在10秒內執行。OLAP實時查詢大量數據 - 選項

我們現在正在尋找建立這樣一個實時adhoc查詢系統的選項,我們正在檢查可能的選項,並且實際上正在努力選擇一個正確的系統。我們正在看到大約

Presto,可以用來直接查詢hdfs,但我們不確定它是否會支持在如此龐大的捲上進行低延遲查詢。

Cassandra,根據查詢建立預先集合的視圖。

德魯伊,建立預先集合的意見和看起來很有趣,但似乎沒有任何企業的支持。

在這裏,我們實際上正努力從這些組件中作出選擇,而且我們不確定是否遺漏了可能適用於此需求的任何其他相關工具。

我們正在尋找可以與HDFS緊密交互的工具/數據庫,如果它的讀取性能適合大容量,我們也可以考慮使用其他任何工具。

我懇請您的幫助,指導我關於組件選擇,並請諮詢我,如果我必須瞭解任何其他工具。

+1

這是一個非常複雜的主題,實際上取決於查詢形狀,每秒查詢次數,所需的更新速率,所需的一致性等等。我不確定任何人都可以在沒有詳細瞭解這些要求的情況下推薦系統。 –

+2

我可以告訴你,我們使用Presto來處理像這樣的許多應用程序,但我們在Flash上​​使用開源的Presto Raptor存儲系統,或者使用基於分片mysql的自定義封閉源代碼。在基於Raptor的一個系統中,我們可以處理更大的數據,並且每小時運行大約100-200查詢/分鐘,並在小型機器上運行小時。 –

+0

非常感謝你@DainSundstrom。我會更詳細地更新我的問題。然而,你能否告訴我是否Presto比Cassandra的讀取性能要快於使用Hive? – sureshsiva

回答

1

嗨,你可以在這裏看到https://cwiki.apache.org/confluence/display/Hive/Druid+Integration德魯伊與Hive緊密集成,可以完全支持你的用例,其中一些數據可以從快速數據存儲中查詢,如德魯伊和重量級查詢加入可以去蜂巢。 另外請注意,從上面列出的解決方案,只有德魯伊有一個強大的(亞秒級延遲)實時攝入firehose集成kafka,風暴,flink rabitMQ和列表繼續和... 從支持的角度來看,德魯伊有一個非常活躍的開源社區,加上它被包括像Yahoo NetFlix這樣的大公司在內的數百家公司使用......此外,至少有兩家公司將提供企業支持,即Hortonworks和Imply。

+0

哇。我沒有意識到Hive-Druid的整合。正如該鏈接指出該功能正在尋求在Hive 2.2.0中引入。 –