首页 > 解决方案 > 时间序列预测:交叉验证训练数据的大小

问题描述

从这里继续我之前的主题:

Keras LSTM:时间序列多步多特征预测 - 结果不佳

我想问你寻找合适网络的策略。我已经阅读了很多关于“测试和跟踪”和“没有设置正确大小的隐藏神经元的规则”的内容。另一方面,例如,我们有一个用于确定某些网络参数的 k 折方法。

问题是如何为 k-fold 或任何其他方法选择足够的输入数据来让我的实验在合理的时间内完成?它应该是整个数据还是其中的一部分?如果是零件,那么什么尺寸合适?

这是我的输入数据集描述:

我有一个时间序列数据集,其中包含一整年的数据(日期是索引)。每 15 分钟(全年)测量一次数据,每天测量 96 个时间步长。数据已经标准化。变量是相关的。除 VAR 之外的所有变量都是天气测量值。

VAR 在一天和一周内是季节性的(因为它在周末看起来有点不同,但每个周末都不太一样)。VAR 值是固定的。我想预测接下来两天(提前 192 步)和接下来 7 天(提前 672 步)的 VAR 值。

这是数据集的示例:

DateIdx               VAR       dewpt       hum         press       temp
2017-04-17 00:00:00   0.369397  0.155039    0.386792    0.196721    0.238889
2017-04-17 00:15:00   0.363214  0.147287    0.429245    0.196721    0.233333
2017-04-17 00:30:00   0.357032  0.139535    0.471698    0.196721    0.227778
2017-04-17 00:45:00   0.323029  0.127907    0.429245    0.204918    0.219444
2017-04-17 01:00:00   0.347759  0.116279    0.386792    0.213115    0.211111
2017-04-17 01:15:00   0.346213  0.127907    0.476415    0.204918    0.169444
2017-04-17 01:30:00   0.259660  0.139535    0.566038    0.196721    0.127778
2017-04-17 01:45:00   0.205564  0.073643    0.523585    0.172131    0.091667
2017-04-17 02:00:00   0.157650  0.007752    0.481132    0.147541    0.055556
2017-04-17 02:15:00   0.122101  0.003876    0.476415    0.122951    0.091667

输入数据集图

标签: tensorflowkerastime-seriescross-validationforecasting

解决方案


推荐阅读