0

我很新的機器學習,所以我需要一些幫助。時間序列預測中的星火和星火流

我有攝取有關用戶的電力消耗爲Cassandra的數據流火花工作。我用這些數據填充多個表格,其中最重要的是「hourly_data」,它指定每個用戶在特定小時內的用電量。

我想要做什麼,是多少電力用戶將花費,直到有一天,一個月或一年的年底一些預測。

哪些庫和模型我應該使用? 迴歸是我真正需要的嗎?

我想我不能在流工作做預測,但我需要啓動該批處理?

而且,這將是如果我能爲特定的日子不錯,情節預期的用戶行爲,直到有一天(同爲一個月或一年...)在星火哪些庫年底可以幫助我做到這一點?任何教程?

非常感謝

回答

0

爲了一天,一個月,一年進行預測,需要相應地配置您的時間序列。例如,如果你想預測當天的使用情況。您需要每天彙總小時數據。 輸入數據:

date  | hour | consumption| 
-------------------------------- 
2016-05-07 | 01 | 0.3  | 
2016-05-07 | 02 | 0.3  | 
2016-05-07 | 03 | 0.3  | 
2016-05-08 | : | 0.3  | 
2016-05-08 | : | 0.3  | 
2016-05-09 | 20 | 0.4  | 
2016-05-09 | 21 | 0.1  | 
2016-05-09 | 22 | 0.2  | 
2016-05-09 | 23 | 0.3  | 
2016-05-09 | 24 | 0.3  | 

您的個人資料系列應該是

date  | consumption| 
-------------------------------- 
2016-05-07 | 1   | 
2016-05-08 | 1.3  | 
2016-05-09 | 2.3  | 

此外,如果你丟失了一些你必須考慮到這些數據。 一旦你分析你的數據,你可以嘗試不同的模型,如ARIMA,Holt-Winters,還可以嘗試一些狀態空間模型。至於庫 spark-timeseries有ARIMA實現。