2016-10-02 67 views
0

我正在尋找一個分佈式時間序列數據庫,它可以在羣集設置模式和生產環境中自由使用,並且它必須適合hadoop生態系統。實時分析時間序列數據庫

我有一個IOT項目,基本上是每隔10分鐘或一個小時發送數據的150k傳感器,因此我試圖查看具有有用功能的時間序列數據庫,如聚合度量,下采樣,彙總(彙總)我在這個Google樣式表文檔time series database comparative中發現了這個比較。

我已經測試Opentsdb的hbaserowkey的數據模型,真的很適合我的使用情況:但窗臺需要爲我的使用情況進行開發的功能是:

  • 總倍數指標
  • 做彙總

我還測試keirosDB這是opentsdb的更豐富的API叉子和它使用卡桑德拉作爲後端存儲的東西是他們的API做的所有東西我找下采樣彙總查詢倍數指標和更多。

我已經測試過Warp10.io和Apache Phoenix,我已經在這裏閱讀Hortonworks link,它將被Ambari度量標準使用,所以我認爲它非常適合時間序列數據。

我的問題是截至目前最好的時間序列數據庫是什麼樣的實時分析與請求性能低於1S的所有類型的請求例如:我們希望50個傳感器在一段時間內發送的聚合數據的平均值5年重新採樣數月?

我認爲這樣的請求不能在1S下完成,所以我相信對於這樣的請求,我們需要一些彙總/預聚合機制,但我不太確定,因爲有很多工具,我不能決定哪一個最適合我的需要。

回答

4

我是Warp 10的領導者,所以我的答案可以被視爲自以爲是。

根據預測的數據量,每10分鐘發送一次數據的傳感器數量爲150k,平均每秒鐘數據點數爲250個,在5年時間內平均數據量低於40B。這樣的卷可以輕鬆適用於簡單的Warp 10獨立版本,如果您稍後需要擁有更大的基礎架構,則可以遷移到基於Hadoop的分佈式Warp 10。

就請求而言,如果您的數據已被重新採樣,獲取50個傳感器的每月數據只有3000個數據點,Warp 10可以做到這一點遠遠少於1秒,並且自動彙總只是一個問題按月編排WarpScript代碼,沒什麼特別之處。

最後,就與Hadoop生態系統的集成而言,Warp 10在Pig,Spark,Flink和Storm中集成了WarpScript語言。使用Warp10InputFormat可以從Warp 10平臺獲取數據,也可以使用任何其他InputFormat加載數據,然後使用WarpScript處理它們。

0

在OVH我們依靠WARP10/HBase的@OvhMetrics的重度用戶,我們提供OpenTSDB/WarpScript/PromQL/...

協議抽象我不感興趣的WARP10,但它對我們來說是非常成功的。無論是擴展性挑戰還是WarpScript可以覆蓋的用例。

大多數情況下,我們甚至不利用hadoop/flink集成,因爲我們的客戶需求可以通過實時WarpScript API輕鬆解決。