我們有一個擁有180億行和100列以上的OLAP表,並且Hive中的卷接近8TB。大多數列都是維度,我們也有很少的指標列。我們希望構建一個實時系統支持ad-hoc查詢來運行儀表板應用程序,其中查詢應該在10秒內執行。OLAP實時查詢大量數據 - 選項
我們現在正在尋找建立這樣一個實時adhoc查詢系統的選項,我們正在檢查可能的選項,並且實際上正在努力選擇一個正確的系統。我們正在看到大約
Presto,可以用來直接查詢hdfs,但我們不確定它是否會支持在如此龐大的捲上進行低延遲查詢。
Cassandra,根據查詢建立預先集合的視圖。
德魯伊,建立預先集合的意見和看起來很有趣,但似乎沒有任何企業的支持。
在這裏,我們實際上正努力從這些組件中作出選擇,而且我們不確定是否遺漏了可能適用於此需求的任何其他相關工具。
我們正在尋找可以與HDFS緊密交互的工具/數據庫,如果它的讀取性能適合大容量,我們也可以考慮使用其他任何工具。
我懇請您的幫助,指導我關於組件選擇,並請諮詢我,如果我必須瞭解任何其他工具。
這是一個非常複雜的主題,實際上取決於查詢形狀,每秒查詢次數,所需的更新速率,所需的一致性等等。我不確定任何人都可以在沒有詳細瞭解這些要求的情況下推薦系統。 –
我可以告訴你,我們使用Presto來處理像這樣的許多應用程序,但我們在Flash上使用開源的Presto Raptor存儲系統,或者使用基於分片mysql的自定義封閉源代碼。在基於Raptor的一個系統中,我們可以處理更大的數據,並且每小時運行大約100-200查詢/分鐘,並在小型機器上運行小時。 –
非常感謝你@DainSundstrom。我會更詳細地更新我的問題。然而,你能否告訴我是否Presto比Cassandra的讀取性能要快於使用Hive? – sureshsiva