python - 用于多元时间序列的 Keras 递归神经网络
问题描述
我一直在阅读 Keras RNN 模型(LSTM 和 GRU),作者似乎主要关注语言数据或使用由先前时间步长组成的训练实例的单变量时间序列。我的数据有点不同。
我有 20 个变量在 10 年内每年测量 100,000 人作为输入数据,并将第 11 年测量的 20 个变量作为输出数据。我想做的是预测第 11 年其中一个变量(而不是其他 19 个)的值。
我的数据结构为X.shape = [persons, years, variables] = [100000, 10, 20]
和Y.shape = [persons, variable] = [100000, 1]
。下面是我的 LSTM 模型的 Python 代码。
## LSTM model.
# Define model.
network_lstm = models.Sequential()
network_lstm.add(layers.LSTM(128, activation = 'tanh',
input_shape = (X.shape[1], X.shape[2])))
network_lstm.add(layers.Dense(1, activation = None))
# Compile model.
network_lstm.compile(optimizer = 'adam', loss = 'mean_squared_error')
# Fit model.
history_lstm = network_lstm.fit(X, Y, epochs = 25, batch_size = 128)
我有四个(相关)问题,请:
我是否为我拥有的数据结构正确编码了 Keras 模型?我从全连接网络(使用扁平数据)和 LSTM、GRU 和 1D CNN 模型获得的性能几乎相同,我不知道我是否在 Keras 中犯了错误,或者循环模型是否只是简单的在这种情况下没有帮助。
我是否应该将 Y 作为一个带有 shape 的系列
Y.shape = [persons, years] = [100000, 11]
,而不是在 X 中包含变量,然后该变量将具有 shapeX.shape = [persons, years, variables] = [100000, 10, 19]
?如果是这样,我怎样才能让 RNN 输出预测的序列?当我使用return_sequences = True
时,Keras 返回一个错误。这是用我拥有的数据进行预测的最佳方法吗?Keras RNN 模型甚至其他模型中是否有更好的选项可供选择?
我如何模拟类似于我拥有的数据结构的数据,以便 RNN 模型的性能优于全连接网络?
更新:
我尝试了一个模拟,我希望这是一个非常简单的案例,RNN 应该有望胜过 FNN。
虽然 LSTM 在隐藏层较少 (4) 时往往优于 FNN,但性能与隐藏层较多 (8+) 相同。谁能想到一个更好的模拟,其中 RNN 有望胜过具有相似数据结构的 FNN?
from keras import models
from keras import layers
from keras.layers import Dense, LSTM
import numpy as np
import matplotlib.pyplot as plt
下面的代码模拟了 10,000 个实例、10 个时间步长和 2 个变量的数据。如果第二个变量在第一个时间步为 0,则 Y 是最后一个时间步的第一个变量的值乘以 3。如果第二个变量在第一个时间步为 1,则 Y 为最后一个时间步的第一个变量的值乘以 9。
我希望 RNN 将在内存中的第一个时间步保留第二个变量的值,并使用它来知道哪个值(3 或 9)与最后一个时间步的第一个变量相乘。
## Simulate data.
instances = 10000
sequences = 10
X = np.zeros((instances, sequences * 2))
X[:int(instances / 2), 1] = 1
for i in range(instances):
for j in range(0, sequences * 2, 2):
X[i, j] = np.random.random()
Y = np.zeros((instances, 1))
for i in range(len(Y)):
if X[i, 1] == 0:
Y[i] = X[i, -2] * 3
if X[i, 1] == 1:
Y[i] = X[i, -2] * 9
下面是 FNN 的代码:
## Densely connected model.
# Define model.
network_dense = models.Sequential()
network_dense.add(layers.Dense(4, activation = 'relu',
input_shape = (X.shape[1],)))
network_dense.add(Dense(1, activation = None))
# Compile model.
network_dense.compile(optimizer = 'rmsprop', loss = 'mean_absolute_error')
# Fit model.
history_dense = network_dense.fit(X, Y, epochs = 100, batch_size = 256, verbose = False)
plt.scatter(Y[X[:, 1] == 0, :], network_dense.predict(X[X[:, 1] == 0, :]), alpha = 0.1)
plt.plot([0, 3], [0, 3], color = 'black', linewidth = 2)
plt.title('FNN, Second Variable has a 0 in the Very First Time Step')
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.show()
plt.scatter(Y[X[:, 1] == 1, :], network_dense.predict(X[X[:, 1] == 1, :]), alpha = 0.1)
plt.plot([0, 9], [0, 9], color = 'black', linewidth = 2)
plt.title('FNN, Second Variable has a 1 in the Very First Time Step')
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.show()
下面是 LSTM 的代码:
## Structure X data for LSTM.
X_lstm = X.reshape(X.shape[0], X.shape[1] // 2, 2)
X_lstm.shape
## LSTM model.
# Define model.
network_lstm = models.Sequential()
network_lstm.add(layers.LSTM(4, activation = 'relu',
input_shape = (X_lstm.shape[1], 2)))
network_lstm.add(layers.Dense(1, activation = None))
# Compile model.
network_lstm.compile(optimizer = 'rmsprop', loss = 'mean_squared_error')
# Fit model.
history_lstm = network_lstm.fit(X_lstm, Y, epochs = 100, batch_size = 256, verbose = False)
plt.scatter(Y[X[:, 1] == 0, :], network_lstm.predict(X_lstm[X[:, 1] == 0, :]), alpha = 0.1)
plt.plot([0, 3], [0, 3], color = 'black', linewidth = 2)
plt.title('LSTM, FNN, Second Variable has a 0 in the Very First Time Step')
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.show()
plt.scatter(Y[X[:, 1] == 1, :], network_lstm.predict(X_lstm[X[:, 1] == 1, :]), alpha = 0.1)
plt.plot([0, 9], [0, 9], color = 'black', linewidth = 2)
plt.title('LSTM, FNN, Second Variable has a 1 in the Very First Time Step')
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.show()
解决方案
是的,使用的代码对于您要执行的操作是正确的。10 年是用于预测下一年的时间窗口,因此这应该是 20 个变量中每个变量的模型输入数量。100,000 个观测值的样本大小与模型的输入形状无关。
您最初塑造因变量 Y 的方式是正确的。您预测 1 个变量的窗口期为 1 年,并且您有 100,000 个观察值。关键字参数
return_sequences=True
将导致抛出错误,因为您只有一个 LSTM 层。True
如果您正在实现多个 LSTM 层,并且相关层后跟另一个 LSTM 层,请将此参数设置为。
我希望我可以为 3 提供一些指导,但实际上没有您的数据集,我不知道是否可以肯定地回答这个问题。
我会说 LSTM 旨在解决常规 RNN 中存在的所谓的长期依赖问题。这个问题归结为,随着相关信息被观察到该信息有用的时间点之间的差距越来越大,标准 RNN 将更难学习它们之间的关系。考虑根据 3 天的活动与全年的活动来预测股票价格。
这导致了第 4 点。如果我松散地使用“相似”一词并将您的时间窗口进一步延长到 50 年而不是 10 年,那么使用 LSTM 获得的优势将变得更加明显。虽然我确信更有经验的人将能够提供更好的答案,我期待看到它。
我发现此页面有助于理解 LSTM:
推荐阅读
- android - 动态应用名称、包名称和应用徽标
- sql - Oracle SQL - 如何根据客户的开始和结束位置安排我的列表?
- java - 从 java 代码到 jvm 字节代码的转换会被认为是编译还是转译?
- azure-pipelines - 有什么方法要求在排队时设置变量?
- angular - 我们如何在 Angular 中使用自定义 HTML 404 页面
- python - Tiny python 添加跳过空行规则,Antlr4
- prebid.js - 我无法下载 prebid.js 的早期版本
- javascript - 如何从命令行向正在运行的 NodeJS 项目发送命令?
- python - 有没有一种方法可以使用 Python 直观地显示我点击的位置。类似于在 Windows 上按 CTRL 并看到圆圈
- reactjs - Firebase 存储:调用随机文件夹?