我將時間序列存儲在Cassandra表中,來自多個傳感器。這裏是我用於存儲數據的模式:Spark/Cassandra的時間序列 - 當值滿足條件時如何找到時間戳?
CREATE TABLE data_sensors (
sensor_id int,
time timestamp,
value float,
PRIMARY KEY ((sensor_id), time)
);
值可以是溫度或壓力,例如,取決於它來自哪個傳感器。
我的目標是能夠找到有關壓力的基本統計數據(最小,最大,平均,標準),但只有當溫度高於某個值時。 這是我希望獲得的整個過程的模式。
我認爲如果我改變Cassandra模型,至少對於溫度數據,能夠過濾值,可能會更好。在將數據導入Spark RDD之後,還有其他方法來避免更改Cassandra表嗎?
然後,一旦完成對溫度的過濾,如何獲得必須使用的時間戳序列來過濾壓力數據?請注意,我不一定有相同的溫度和壓力時間戳,這就是爲什麼我認爲我需要一段時間而不是精確的時間戳列表。
感謝您的幫助!