2016-05-31 53 views
3

我們計劃將傳感器時間序列數據存儲在cassandra中,並使用spark/spark-ts在其上應用機器學習算法。使用spark-ts調整不均勻間隔時間序列

與文檔不同,我們的時間序列數據是不規則的 - unevenly spaced time series - 當傳感器發送基於事件的數據時。

但是大多數算法和模型都需要常規時間序列。

  • spark-ts是否提供任何功能來改造不規則時間序列定期酮(使用內插或時間加權平均等)?

  • 如果不是,那麼解決該問題的建議方法是什麼?

回答

0

spark-ts不提供將不規則時間序列轉換爲常規時間序列的任何函數。

如何處理不規則間隔的時間序列取決於您試圖通過分析實現的目標。用於時間序列的用例包括預測/預測,異常檢測或嘗試理解/分析過去的行爲。

如果您希望使用spark-ts中的可用算法(與通過爲事件流設計的其他統計過程對數據進行建模相反),則可以選擇將時間軸分成大小相等的二進制數,然後計算每個垃圾箱內的數據摘要(例如總數,平均值等)。隨着您的垃圾箱越來越細化,由於量化時間維度而丟失的信息被最小化,但是您的數據可能更難以建模(因此垃圾箱大小控制着折衷)。因此,分箱數據會形成均勻間隔的時間序列,您可以使用典型的時間序列技術進行分析。