Cassandra數據聚合

我有一個現有相當大的SQL Server數據庫和一個分析應用程序，它使用它來根據用戶輸入執行數據聚合。例如，應用程序可以可視化查詢，如 select ... group by Col1, Col2, Col3, Col4, Col5。用戶然後可以切換列組，但是他們想要的，所以沒有什麼是靜態的。Cassandra數據聚合

目前工作正常，但我們正在迅速獲取更多數據，並且事情開始不起作用。

我們調查了Cassandra，並且出於多種原因想要朝那個方向移動，但不清楚如何允許用戶以快速方式執行GROUP BY類型查詢。

我們是否需要預先聚合所有數據組合？如果是這樣，這聽起來像我們可能需要x!組合這個工作。這可能是相當多的預先計算工作。 Spark可能會有所幫助，但我懷疑這將在整個集羣中快速下滑。

來源

2016-01-20 Telavian

不是一個答案，但是這可能幫助：https://docs.datastax.com/en/latest-cql/ cql/cql_using/useCreateUDA.html –

有在該組的JIRA BY子句，可能最終會在卡桑德拉： CASSANDRA-10707

與用戶聯合定義彙總和CASSANDRA-10783（允許UDF字面值），甚至有可能模擬GROUP BY。 .. HAVING XXX

這一切看起來非常有前途的，只要這些JIRA進入主幹

來源

2016-01-20 22:38:15 doanduyhai

謝謝。目前看來，如果我想組合，那麼我將不得不創建一個用戶定義的聚合函數，並且數據都必須位於同一個分區中？ – Telavian

Cassandra數據聚合

回答

相關問題