首页 > 解决方案 > 批量独立示例中的 LSTM 多对多训练

问题描述

我仍在研究 LSTM,并试图提出最佳和适当的训练例程和数据形状。

时间序列代表音符。让我们称之为一首歌。所以我有以下形式的数据。该系列由单热编码的音符组成。所以他们有形状(timesteps, features)。该系列的副本通过调换(向上移动)系列制作十二次。然后一首歌就成形了(12, timesteps, features)。这十二个系列中的每一个都应该独立训练。此外,还有多首长度不同的歌曲。

我想训练一个 LSTM,以便在系列的每一步都进行预测。因此,十二个系列之一的训练数据X = series[:-1, :], Y = series[1:, :]对于所有十二个版本都是类似的。

# Example data, numbers not one-hot encoded for brevity
series = [1, 3, 2, 4, 7, 7, 10]
X = [1, 3, 2, 4, 7, 7]
Y = [3, 2, 4, 7, 7, 10]   # Shifted 1 step back

十二种变体将创建一个自然批次,因为长度不变。但我的问题是:是否可以安排训练,使这些变体以 12 个批次的形式输入网络,但训练是多对多的?(每个预测一个时间步长)

目前,对于一个示例,我似乎有一种幼稚的方法。它将时间步长一一提供给网络,并保留其间的状态:

# X = (12 * timesteps, 1, features), Y = (12 * timesteps, features)
model = Sequential()
model.add(LSTM(256, input_shape=(None, X.shape[-1]), batch_size=1, stateful=True))
model.add(Dense(Y.shape[-1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['categorical_accuracy'])

for epoch in range(10):
    model.fit(X, Y, epochs=1, batch_size=1, shuffle=False)
    model.reset_states()

对于一首十二个变奏曲的歌曲,如何实现上述训练机制?

标签: pythonmachine-learningkerastime-serieslstm

解决方案


正如您在评论中提到的,您需要在内部包装一个 LSTM 层TimeDistributed。这样,12 个变体中的每一个都将被单独处理。此外,由于每个特征向量都是单热编码的,我们添加了一个带有softmax激活的 Dense 层作为我们网络的最后一层:

from keras import models, layers

n_features = 20

model_input = layers.Input(shape=(12, None, n_features))
x = layers.TimeDistributed(layers.LSTM(64, return_sequences=True))(model_input)
model_output = layers.Dense(n_features, activation='softmax')(x)

model = models.Model([model_input], [model_output])
model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
model.summary()

以下是模型摘要:

Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         (None, 12, None, 20)      0         
_________________________________________________________________
time_distributed_1 (TimeDist (None, 12, None, 64)      21760     
_________________________________________________________________
dense_1 (Dense)              (None, 12, None, 20)      1300      
=================================================================
Total params: 23,060
Trainable params: 23,060
Non-trainable params: 0
_________________________________________________________________

请注意,此模型对于您的问题可能非常简单。您可能希望将更多的 LSTM 层堆叠在一起,并根据您要解决的具体问题更改参数以获得更好的准确性(最后您必须进行实验!);但它可以让您大致了解模型在这种情况下的外观。虽然看起来有点无关紧要,但我建议你阅读 Keras 官方博客中的Seq2Seq 教程,以获得更多这方面的想法。

附带说明一下,如果您使用的是 GPU,那么您可以使用CuDNNLSTM层而不是 LSTM;它在 GPU 上提供了更好的性能。


推荐阅读