2016-01-20 88 views
0

我有一個現有相當大的SQL Server數據庫和一個分析應用程序,它使用它來根據用戶輸入執行數據聚合。例如,應用程序可以可視化查詢,如 select ... group by Col1, Col2, Col3, Col4, Col5。用戶然後可以切換列組,但是他們想要的,所以沒有什麼是靜態的。Cassandra數據聚合

目前工作正常,但我們正在迅速獲取更多數據,並且事情開始不起作用。

我們調查了Cassandra,並且出於多種原因想要朝那個方向移動,但不清楚如何允許用戶以快速方式執行GROUP BY類型查詢。

我們是否需要預先聚合所有數據組合?如果是這樣,這聽起來像我們可能需要x!組合這個工作。這可能是相當多的預先計算工作。 Spark可能會有所幫助,但我懷疑這將在整個集羣中快速下滑。

+0

不是一個答案,但是這可能幫助:https://docs.datastax.com/en/latest-cql/ cql/cql_using/useCreateUDA.html –

回答

0

有在該組的JIRA BY子句,可能最終會在卡桑德拉: CASSANDRA-10707

與用戶聯合定義彙總和CASSANDRA-10783(允許UDF字面值),甚至有可能模擬GROUP BY。 .. HAVING XXX

這一切看起來非常有前途的,只要這些JIRA進入主幹

+0

謝謝。目前看來,如果我想組合,那麼我將不得不創建一個用戶定義的聚合函數,並且數據都必須位於同一個分區中? – Telavian