2017-07-03 11 views
0

我知道將數據分離爲訓練和測試提供了一種方法來評估模型在看不見的數據情況下的表現。時間系列Python ARIMA(測試,培訓和預測數據中可用的過去日期)

我正在訓練ARIMA模型,並且每天的數據都是從10月1日到11月22日。我有興趣在12月14日預測一些指標。難道我

  1. 列車上的所有可用數據,並使用預測(「2015年11月23日」,「二○一五年十二月十四日」)或
  2. 拆分數據到訓練和測試,以獲得性能指標和使用模型訓練集(從10月1日到11月7日),做一個預測,包括測試數據以及未來的日期,例如預測( '2015年11月8日', '2015年12月14日')。

我希望我的問題很有意義,如果您覺得這樣很混亂,我們很樂意澄清。

謝謝!

回答

0

如果你使用所有的數據進行培訓,那麼你將無法預測你對不可見數據進行泛化建模的程度。這是不使用測試集的一個問題。

您將遇到的另一個問題是您將無法嘗試不同的配置或模型超參數,除非您決定採用某種交叉驗證方式。

數據系列預測對於交叉驗證特別棘手,但我會遵循this post's有關正向鏈接的建議。如果你有6個的周進行數據的,則可以將數據分割成褶皺如下:

  • 倍1:訓練[W1],測試[西二環]
  • 倍2:訓練[W1 W2],測試[的w3]
  • 倍3:培養[W1,W2,W3],測試[W4]
  • 倍4:培養[W1,W2,W3 W4],測試[W5]
  • 倍5:培養[W1,W2,W3 W4 W5 ],測試[w6]