2016-08-25 42 views
-1

任何人都可以推薦我可以探索哪種技術,如果我在Cassandra表(3節點羣集)中有一個大型數據集,而且我需要對每天收到的記錄執行總和操作。如此計算的計數需要在MySQL表中更新。Spark Storm或Flink - 大數據分析

目前我使用普通的Java執行使用SQL和CQL查詢,但它很慢,並且在未來的數據會呈指數級增長,這些任務。

任何人都可以提出可以探索的技術,以最快的方式和最低的開發時間完成這項任務。

+0

問題要求我們推薦或找到一本書,工具,軟件庫,教程或其他非本地資源是堆棧溢出的話題,因爲它們傾向於吸引自以爲是的答案和垃圾郵件。相反,[描述問題](http://meta.stackoverflow.com/questions/254393/what-exactly-is-a-recommendation-question)以及到目前爲止已經做了什麼來解決它。 – eliasah

回答

0

沒有多少推薦,它只取決於你的任務和你自己的偏好。

Apache Storm是一個流媒體引擎,如果你想處理條目流而不是像你的情況那樣的一批數據,那就太好了。

Apache Spark和Apache Flink都將允許您每天執行一次批處理作業,或者創建一個可計算一天結果的流式應用程序。

我更喜歡Apache Spark,因爲它具有批量和流式作業的統一API(因此您可以輕鬆地將批量代碼更改爲流式處理)和強大的社區支持。 Apache Flink支持實時流式傳輸,但在您的情況下不需要。

但是,你應該自己看看這兩個框架,並選擇這個框架,這對你來說更好。在我看來,他們兩個都會好的