Docs > torch.nn > LSTM pytorch里使用LSTM

LSTM

CLASS torch.nn.LSTM(*args,**kwargs) [SOURCE]

对输入序列应用多层长短期记忆(LSTM) RNN。

对于输入序列中的每一个元素，每一层（layer）计算以下的函数值：

这里h_t是t时刻的hidden state，c_t是t时刻的cell state，x_t是t时刻的输入。

h_t-1是t-1时刻的hidden state，也是 o时刻的initial hidden state。i_t, f_t, g_t, o_t 分别是输入门，忘记门，cell，输出门。σ是sigmoid函数， ⊙是 Hadamard积。

在多层（multilayer）LSTM中，l层（l>=2）的输入x是l-1层的隐藏状态h乘以dropout δ ，δ 是一个伯努利随机变量，有一定概率为0。

如果指定proj_size > 0，则使用带有投影（projections）的LSTM。这将按照以下方式更改LSTM单元格。首先，h_t的尺寸将从hidden_size更改为proj_size (W_hi的尺寸将相应更改)。其次，将每一层的输出隐藏状态乘以一个可学习的投影矩阵: 。因此，LSTM网络的输出也会有不同的形状。有关所有变量的精确尺寸，请参阅下面的输入/输出部分。详情请访问https://arxiv.org/abs/1402.1128。

Parameters

input_size – 输入x中期望的特性数量

hidden_size – 隐藏状态h的特征数

num_layers – 循环层数. E.g., 设置 num_layers=2 则意味着将两个LSTM堆叠在一起，形成一个堆叠的LSTM，第二个LSTM接收第一个LSTM的输出并计算最终结果。默认值:1

bias – If False, layer不使用偏置weights b_ih 和 b_hh. 默认值: True

batch_first – If True, 输入输出张量为(batch, seq, feature)，而不是(seq, batch, feature)。注意，这并不适用于隐藏或单元格状态。有关详细信息，请参阅下面的输入/输出部分。默认值:False

dropout – 如果非0，则在除最后一层外的每个LSTM层的输出上引入Dropout层，Dropout概率等于dropout. 默认值: 0

bidirectional – If True, 使用双向 bidirectional LSTM. 默认值: False

proj_size – If > 0, 将使用LSTM和相应大小的投影。默认值: 0

Inputs: input, (h_0, c_0)

input: tensor of shape (L, N, Hin) when batch_first=False or
(N,L,Hin) when batch_first=True 包含输入序列的特征。输入也可以是一个压缩的可变长度序列（a packed variable length sequence）。See torch.nn.utils.rnn.pack_padded_sequence() or torch.nn.utils.rnn.pack_sequence() for details.

h_0: tensor of shape (D∗num_layers, N, Hout) 包含批处理中每个元素的初始隐藏状态。如果 (h_0, c_0)没有提供，则使用默认值0矩阵。

c_0: tensor of shape (D∗num_layers,N,Hcell)包含批处理中每个元素的初始单元格状态。如果没有提供(h_0, c_0)，则默认为零（零矩阵）。

这里：

Outputs: output, (h_n, c_n)

output: tensor of shape (L,N,D∗Hout) 当 batch_first=False or
(N,L,D∗Hout) 当 batch_first=True 包含LSTM最后一层的输出特性(h_t), 对于每一个 t. 如果给定了一个nn.utils.rnn.PackedSequence 为输入，输出也将是一个打包序列。a packed sequence.

h_n: tensor of shape (D∗num_layers,N,Hout) 包含批处理中每个元素的最终隐藏状态。

c_n: tensor of shape (D∗num_layers,N,Hcell) 包含批处理中每个cell的最终隐藏状态。

Variables

~LSTM.weight_ih_l[k] – 当k = 0时，第kth层的可学习输入隐藏权值(W_ii|W_if|W_ig|W_io)，形状为(4*hidden_size, input_size)。否则，形状是(4*hidden_size, num_directions *hidden_size)

~LSTM.weight_hh_l[k] –第k层可学习的隐含权值(W_hi|W_hf|W_hg|W_ho)，形状为(4*hidden_size, hidden_size)。如果proj_size>0被指定，形状将是(4*hidden_size, proj_size)。

~LSTM.bias_ih_l[k] – 形状为(4*hidden_size)的第k层(b_ii|b_if|b_ig|b_io)的可学习输入隐藏偏差。

~LSTM.bias_hh_l[k] – 形状(4*hidden_size)的KTH层(b_hi|b_hf|b_hg|b_ho)的可学习的隐隐藏偏置。

~LSTM.weight_hr_l[k] – 第k层的可学习投影权值，形状为(proj_size, hidden_size)。只在 proj_size > 0 的时候是指定的。

NOTE

所有的权重和偏差都是初始化：

NOTE

对于双向lstm, forward和backward分别是方向0和1。Example of splitting the output layers when batch_first=False: output.view(seq_len, batch, num_directions, hidden_size).

WARNING

在一些版本的cuDNN和CUDA上，RNN函数存在已知的不确定性问题。您可以通过设置以下环境变量来强制执行确定性行为:

On CUDA 10.1, 设置环境变量CUDA_LAUNCH_BLOCKING=1。这可能会影响性能。

On CUDA 10.2 or later, 设置环境变量(注意前导的冒号符号)CUBLAS_WORKSPACE_CONFIG=:16:8 或者 CUBLAS_WORKSPACE_CONFIG=:4096:2.

See the cuDNN 8 Release Notes for more information.

Orphan

NOTE

如果满足以下条件:

1)cudnn开启 2)输入数据在GPU上 3)输入数据有dtype torch.float16 4)使用V100 GPU

5)输入数据不是PackedSequence格式。

可以选择持久算法（persistent algorithm）来提高性能。

Examples:

rnn = nn.LSTM(10, 20, 2)

input = torch.randn(5, 3, 10)

h0 = torch.randn(2, 3, 20)

c0 = torch.randn(2, 3, 20)

output, (hn, cn) = rnn(input, (h0, c0))

Docs > torch.nn > LSTM pytorch里使用LSTM

推荐阅读