0

我正在構建一個預測系統,以預測在給定時間點將斷開連接的有線用戶數量。我正在使用Python,並且嘗試使用不同的模型,XGBoost表現最好。Xgboost預測模型缺失假期

我有一個以移動窗口方式工作的自我引用系統,例如,當我用完了實際情況,我開始在我的滯後時間使用預測數字。

要構建預測系統,我使用了先前800天的滯後(斷開一天),移動平均值,比率,季節性,年,月,日,星期等指標。但是,節假日,是在哪裏得到一點點搞砸了。最初我只用了一列來表示各種假期,但後來我發現不同的假期可能會產生不同的影響(一些假期導致高銷售額,一些假期導致流失),所以我爲每個假期添加了一列,我也加了長週末指標,週日假期等。我還添加了一個'季節'的列表示節日期間,如感恩節,新年假期等

即使添加這麼多與假期相關的列後,我很大程度上錯過了感恩節和新的一年。儘管它在某種程度上確實照顧了假期,但它完全錯過了高峯期。從圖表中可以看出,尖峯是一種趨勢,每年都會出現(橙色)。我的預測(灰色)確實在十二月十七日提出假期,但它在預測之下,關於如何照顧的任何想法。 enter image description here

p.s.我調整了xgboost超參數使用gridsearch

回答

0

據我所知,如果你清理你的數據,刪除離羣值,你的模型將提供一個更穩定的預測集整體,但它將無法預測說離羣值。

如果你確實清除了數據,我會用閾值來玩,看看更廣泛的日常錯誤平衡能否預測更高的峯值。