我正在研究用於傳感器數據和預測分析的大數據解決方案。 我是大數據新手,並且閱讀了關於lambda架構的內容。 我曾考慮將Cassandra數據庫與Hadoop一起使用。 Cassandra是一個高可用性和分區容忍數據庫,Hadoop hdfs是用於大型分析作業的文件系統。具有cassanda和hadoop的大數據lambda體系結構
如果我從物聯網設備接收數據,數據應該先保存在Hadoop中然後保存到Cassandra中? lambda體系結構在批處理層中包含Hadoop,接收數據並將其發送到服務層到nosql數據庫。
爲什麼數據應該是Hadoop中的第一個? 以及如果Hadoop包含原始數據,在Cassandra中存儲了哪些數據?
此時流層不在焦點。 我只想了解一起使用Cassandra和Hadoop。
Hadoop中的數據用於大型分析,在cassandra中應該有我的Hadoop作業的結果。
這是否意味着我可以存儲我的原始數據?如果不僅大型分析工作對我的應用程序有用,我可以將我的原始數據存儲在Cassandra和Hadoop中?
例
INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (’1234ABCD’,’2013-04-03 07:02:00′,’73F’);
如果這是我的插件和我有成千上萬的人在一個單一分鐘。 我想做一些大型工作,我使用Hadoop?
但我也需要每一個數據行爲我的應用程序沒有分析。 Cassandra也在儲存它?
您想要實時顯示給用戶的數據需要在cassandra中。 –
所以我也可以安全我的數據+時間戳在兩個?此外,我有可能對大數據集進行分析,並將結果傳遞給cassandra在不同的表中? – Khan
如何從Hadoop的傳遞到Cassandra的數據,如果我不想對原始數據的分析?還是應該將數據傳遞給兩者? – Khan