我評估傳感器數據採集系統具有以下要求的,HIVE/HDFS用於大規模實時存儲傳感器數據?
- 百萬端點100個字節的數據每分鐘(作爲一個時間序列)發送。
基本上數以百萬計的小型寫入存儲。
This data is write-once, so basically it never gets updated.
- 訪問需求
一個。需要定期訪問用戶的完整數據(不太頻繁)
b。用戶的部分數據需要定期訪問(更頻繁)。例如,我需要在最近一小時/一天/一週/一個月內收集傳感器數據以進行分析/報告。
已經開始尋找Hive/HDFS作爲選項。有人可以評論Hive在這種用例中的適用性嗎?我擔心儘管分佈式存儲需求會起作用,但它似乎比實時數據收集/存儲更適合於數據倉庫應用程序。
HBase/Cassandra在這種情況下更有意義嗎?
你能說清楚你的終端如何對應你的用戶(如果有的話)?你期望有多少用戶,多少數據是「用戶的完整數據」? – DNA 2011-12-16 21:56:57
端點不會*轉換爲用戶。而一年100字節/分鐘爲用戶收集的數據大約爲50MB。對於1M用戶,這是大約50TB的數據。 – user393144 2011-12-16 23:48:21