我們計劃將傳感器時間序列數據存儲在cassandra
中,並使用spark/spark-ts
在其上應用機器學習算法。使用spark-ts調整不均勻間隔時間序列
與文檔不同,我們的時間序列數據是不規則的 - unevenly spaced time series - 當傳感器發送基於事件的數據時。
但是大多數算法和模型都需要常規時間序列。
spark-ts
是否提供任何功能來改造不規則時間序列定期酮(使用內插或時間加權平均等)?如果不是,那麼解決該問題的建議方法是什麼?
我們計劃將傳感器時間序列數據存儲在cassandra
中,並使用spark/spark-ts
在其上應用機器學習算法。使用spark-ts調整不均勻間隔時間序列
與文檔不同,我們的時間序列數據是不規則的 - unevenly spaced time series - 當傳感器發送基於事件的數據時。
但是大多數算法和模型都需要常規時間序列。
spark-ts
是否提供任何功能來改造不規則時間序列定期酮(使用內插或時間加權平均等)?
如果不是,那麼解決該問題的建議方法是什麼?
spark-ts不提供將不規則時間序列轉換爲常規時間序列的任何函數。
如何處理不規則間隔的時間序列取決於您試圖通過分析實現的目標。用於時間序列的用例包括預測/預測,異常檢測或嘗試理解/分析過去的行爲。
如果您希望使用spark-ts中的可用算法(與通過爲事件流設計的其他統計過程對數據進行建模相反),則可以選擇將時間軸分成大小相等的二進制數,然後計算每個垃圾箱內的數據摘要(例如總數,平均值等)。隨着您的垃圾箱越來越細化,由於量化時間維度而丟失的信息被最小化,但是您的數據可能更難以建模(因此垃圾箱大小控制着折衷)。因此,分箱數據會形成均勻間隔的時間序列,您可以使用典型的時間序列技術進行分析。