python - 批量独立示例中的 LSTM 多对多训练
问题描述
我仍在研究 LSTM,并试图提出最佳和适当的训练例程和数据形状。
时间序列代表音符。让我们称之为一首歌。所以我有以下形式的数据。该系列由单热编码的音符组成。所以他们有形状(timesteps, features)
。该系列的副本通过调换(向上移动)系列制作十二次。然后一首歌就成形了(12, timesteps, features)
。这十二个系列中的每一个都应该独立训练。此外,还有多首长度不同的歌曲。
我想训练一个 LSTM,以便在系列的每一步都进行预测。因此,十二个系列之一的训练数据X = series[:-1, :], Y = series[1:, :]
对于所有十二个版本都是类似的。
# Example data, numbers not one-hot encoded for brevity
series = [1, 3, 2, 4, 7, 7, 10]
X = [1, 3, 2, 4, 7, 7]
Y = [3, 2, 4, 7, 7, 10] # Shifted 1 step back
十二种变体将创建一个自然批次,因为长度不变。但我的问题是:是否可以安排训练,使这些变体以 12 个批次的形式输入网络,但训练是多对多的?(每个预测一个时间步长)
目前,对于一个示例,我似乎有一种幼稚的方法。它将时间步长一一提供给网络,并保留其间的状态:
# X = (12 * timesteps, 1, features), Y = (12 * timesteps, features)
model = Sequential()
model.add(LSTM(256, input_shape=(None, X.shape[-1]), batch_size=1, stateful=True))
model.add(Dense(Y.shape[-1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['categorical_accuracy'])
for epoch in range(10):
model.fit(X, Y, epochs=1, batch_size=1, shuffle=False)
model.reset_states()
对于一首十二个变奏曲的歌曲,如何实现上述训练机制?
解决方案
正如您在评论中提到的,您需要在内部包装一个 LSTM 层TimeDistributed
。这样,12 个变体中的每一个都将被单独处理。此外,由于每个特征向量都是单热编码的,我们添加了一个带有softmax
激活的 Dense 层作为我们网络的最后一层:
from keras import models, layers
n_features = 20
model_input = layers.Input(shape=(12, None, n_features))
x = layers.TimeDistributed(layers.LSTM(64, return_sequences=True))(model_input)
model_output = layers.Dense(n_features, activation='softmax')(x)
model = models.Model([model_input], [model_output])
model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
model.summary()
以下是模型摘要:
Layer (type) Output Shape Param #
=================================================================
input_1 (InputLayer) (None, 12, None, 20) 0
_________________________________________________________________
time_distributed_1 (TimeDist (None, 12, None, 64) 21760
_________________________________________________________________
dense_1 (Dense) (None, 12, None, 20) 1300
=================================================================
Total params: 23,060
Trainable params: 23,060
Non-trainable params: 0
_________________________________________________________________
请注意,此模型对于您的问题可能非常简单。您可能希望将更多的 LSTM 层堆叠在一起,并根据您要解决的具体问题更改参数以获得更好的准确性(最后您必须进行实验!);但它可以让您大致了解模型在这种情况下的外观。虽然看起来有点无关紧要,但我建议你阅读 Keras 官方博客中的Seq2Seq 教程,以获得更多这方面的想法。
附带说明一下,如果您使用的是 GPU,那么您可以使用CuDNNLSTM层而不是 LSTM;它在 GPU 上提供了更好的性能。
推荐阅读
- python - 在 Selenium 上的 Javascript 上下文中运行函数
- python - 我应该如何使用共享资源将我的 python 脚本容器化?
- paypal - 贝宝沙箱 - 验证身份
- python-3.x - 根据用户输入动态过滤 Pandas DataFrame
- php - pcntl_fork 子进程内存
- scala - 如何将类型参数作为函数参数发送
- dfa - 为什么不接受此 DFA?
- javascript - 线性渐变不适用于 javascript
- java - 使用 AffineTransform 旋转图像会产生视觉上正确的像素,但 getRGB 不匹配
- flutter - 如何在模态底页中制作 CheckboxListTile?