1
A
回答
3
時間序列的地方,你不應該隨意分割典型案例(一般你不應該隨意拆分的時候那裏有顯著例子,例如相關) 。
通常銷售不是嚴格動態的時間序列(如股票價格),但使用train_test_split
可能會有問題。
您可以在不使用sklearn的情況下獲得所需的交叉驗證拆分(例如sklearn: User defined cross validation for time series data,Pythonic Cross Validation on Time Series ...)。
培訓的70-80%是標準。假設例子的分佈均勻,可以使用1月至4月/ 5月的數據作爲訓練集,其餘記錄用於驗證。
目前,據我所知,sklearn不支持嚴格的時間相關問題的交叉驗證。所有開箱即用的交叉驗證程序將構建訓練摺疊,其中包含有關測試摺疊的未來信息(例如[WIP] RollingWindow cross-validation #3638)。
此外,您應該考慮您的數據是季節性的還是另有明顯的組別劃分(例如地理區域)。
相關問題
- 1. SSAS - 分類 - 如何將數據分割爲:訓練集 - 驗證集 - 測試集
- 2. 訓練集和驗證不同維度的集合
- 3. 如何將文檔分割爲訓練集和測試集?
- 4. 1)從整個訓練集中訓練CNN和2)訓練集中的訓練集,然後是整個訓練集之間的區別是什麼?
- 5. R訓練和測試集
- 6. 訓練數據集
- 7. 在Matlab中訓練數據集,驗證數據集,測試數據集
- 8. R:如何將數據幀分成訓練,驗證和測試集?
- 9. 如何將數據集分割/分割爲訓練和測試數據集以進行交叉驗證?
- 10. 如何在Apache Spark中訓練Matrix分解模型MLlib的ALS使用訓練,測試和驗證數據集
- 11. 隨機樣本集創建交叉驗證和基於標籤的訓練集
- 12. 培訓和測試集拆分
- 13. 在Postgres中將數據集分成訓練和測試集
- 14. 培訓驗證面部表情數據集的測試集拆分
- 15. 雙向LSTM(BLSTM)的訓練,測試和驗證集
- 16. 在RandomForest中使用驗證和訓練數據集
- 17. 中提琴瓊斯實驗(訓練集)
- 18. 我應該如何將大的(〜50Gb)數據集分成訓練,測試和驗證集?
- 19. 如何拆分自己的數據集在Tensorflow中進行訓練和驗證CNN
- 20. 在MATLAB中將數據拆分爲訓練/測試數據集?
- 21. 基於訓練集的數據分類
- 22. 貝葉斯分類器訓練集
- 23. AdaBoost算法的訓練集
- 24. 更新ANN的訓練集
- 25. 追加Tensorflow訓練集
- 26. Twitter主觀訓練集
- 27. Neuroph不能訓練集
- 28. 訓練集平衡策略
- 29. 表示訓練集與
- 30. FANN訓練數據集
查看此答案的詳細摘要:http://stackoverflow.com/questions/13610074/is-there-a-rule-of-thumb-for-how-to-divide-a-dataset-into-training -and-validatio – Harjatin
'scikit-learn'有一個用於分割數據的有用幫助函數:http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html – numentar
可能的重複[where to保存激活密鑰](http://stackoverflow.com/questions/1360749/where-to-save-activation-key) – Prune