tensorflow - LSTM 或任何其他层的 TimeDistributed 包装器有什么用途
问题描述
我试图了解 keras/tensorflow 中 TimeDistributed 层的使用。我已经阅读了一些主题和文章,但仍然没有正确理解。
让我对 TImeDistributed 层的作用有所了解的线程是 -
Keras 中 TimeDistributed 层的作用是什么?
时间分布(密集)与 Keras 中的密集 - 相同数量的参数
但我仍然不知道为什么实际使用了图层!
例如,以下两个代码都将提供相同的输出(& output_shape):
model = Sequential()
model.add(TimeDistributed(LSTM(5, input_shape = (10, 20), return_sequences = True)))
print(model.output_shape)
model = Sequential()
model.add(LSTM(5, input_shape = (10, 20), return_sequences = True))
print(model.output_shape)
并且输出形状将是(据我所知) -
(None, 10, 5)
那么,如果两个模型都提供相同的输出,那么 TimeDistributed Layer 的实际用途是什么?
我还有另一个问题。TimeDistributed 层将时间相关数据应用于单独的层(共享相同的权重)。那么,它与展开 keras API 中提供的 LSTM 层有什么不同:
展开:布尔值(默认为 False)。如果为 True,则网络将展开,否则将使用符号循环。展开可以加速 RNN,尽管它往往更占用内存。展开仅适用于短序列。
这两者有什么区别?
谢谢..我还是个新手,所以有很多问题。
解决方案
正如 Keras 文档所建议的那样,TimeDistributed 是一个包装器,它将一个层应用于输入的每个时间切片。
这是一个可能有帮助的例子:
假设您有猫的视频样本,您的任务是一个简单的视频分类问题,如果猫没有移动,则返回 0,如果猫在移动,则返回 1。假设您的输入暗淡为 (None, 50, 25, 25, 3),这意味着您每个样本有 50 个时间步或帧,并且您的帧是 25 x 25 并且有 3 个通道,rgb。
好吧,一种方法是使用 CNN 从每一帧中提取一些“特征”,例如 Conv2D,然后将它们传递给 LSTM 层。但是每一帧的特征提取都是一样的。现在 TimeDistributed 来救援了。你可以用它来包装你的 Conv2D,然后将输出传递给同样由 TimeDistributed 包装的 Flatten 层。所以在应用 TimeDistributed(Conv2D(...)) 之后,输出会像 (None, 50, 5, 5, 16) 一样暗淡,而在 TimeDistributed(Flatten()) 之后,输出会变得暗淡 (None , 50, 400)。(实际的暗淡取决于 Conv2D 参数。)
该层的输出现在可以通过 LSTM。
很明显,LSTM 本身不需要 TimeDistributed 包装器。
推荐阅读
- ruby-on-rails - has_many 通过关联合并导致 N+1
- javascript - 如何检测发生碰撞的一侧
- javascript - 如何让数字以更智能的方式增长和减少?
- asp.net-mvc - .Net Core - 方法创建错误 NullReferenceException
- reactjs - 使用 redux sagas 管理初始异步操作以获取初始数据的模式?
- javascript - JavaScript:试图理解计算指数值的递归函数的 Else 语句
- php - 多维数组 php 文件不加载 0800 或 0900 作为内部变量
- java - 用户输入null时如何退出循环
- c# - 你能从建议中删除一些东西吗?
- php - 如何通过 3+ 个表建立 Laravel Eloquent 模型