OLAP實時查詢大量數據 - 選項

我們有一個擁有180億行和100列以上的OLAP表，並且Hive中的卷接近8TB。大多數列都是維度，我們也有很少的指標列。我們希望構建一個實時系統支持ad-hoc查詢來運行儀表板應用程序，其中查詢應該在10秒內執行。OLAP實時查詢大量數據 - 選項

我們現在正在尋找建立這樣一個實時adhoc查詢系統的選項，我們正在檢查可能的選項，並且實際上正在努力選擇一個正確的系統。我們正在看到大約

Presto，可以用來直接查詢hdfs，但我們不確定它是否會支持在如此龐大的捲上進行低延遲查詢。

Cassandra，根據查詢建立預先集合的視圖。

德魯伊，建立預先集合的意見和看起來很有趣，但似乎沒有任何企業的支持。

在這裏，我們實際上正努力從這些組件中作出選擇，而且我們不確定是否遺漏了可能適用於此需求的任何其他相關工具。

我們正在尋找可以與HDFS緊密交互的工具/數據庫，如果它的讀取性能適合大容量，我們也可以考慮使用其他任何工具。

我懇請您的幫助，指導我關於組件選擇，並請諮詢我，如果我必須瞭解任何其他工具。

來源

2016-11-09 sureshsiva

這是一個非常複雜的主題，實際上取決於查詢形狀，每秒查詢次數，所需的更新速率，所需的一致性等等。我不確定任何人都可以在沒有詳細瞭解這些要求的情況下推薦系統。 –

我可以告訴你，我們使用Presto來處理像這樣的許多應用程序，但我們在Flash上使用開源的Presto Raptor存儲系統，或者使用基於分片mysql的自定義封閉源代碼。在基於Raptor的一個系統中，我們可以處理更大的數據，並且每小時運行大約100-200查詢/分鐘，並在小型機器上運行小時。 –

非常感謝你@DainSundstrom。我會更詳細地更新我的問題。然而，你能否告訴我是否Presto比Cassandra的讀取性能要快於使用Hive？ – sureshsiva

嗨，你可以在這裏看到https://cwiki.apache.org/confluence/display/Hive/Druid+Integration德魯伊與Hive緊密集成，可以完全支持你的用例，其中一些數據可以從快速數據存儲中查詢，如德魯伊和重量級查詢加入可以去蜂巢。另外請注意，從上面列出的解決方案，只有德魯伊有一個強大的（亞秒級延遲）實時攝入firehose集成kafka，風暴，flink rabitMQ和列表繼續和... 從支持的角度來看，德魯伊有一個非常活躍的開源社區，加上它被包括像Yahoo NetFlix這樣的大公司在內的數百家公司使用......此外，至少有兩家公司將提供企業支持，即Hortonworks和Imply。

來源

2016-11-10 18:05:37

哇。我沒有意識到Hive-Druid的整合。正如該鏈接指出該功能正在尋求在Hive 2.2.0中引入。 –

OLAP實時查詢大量數據 - 選項

回答

相關問題