首页 > 解决方案 > 需要实现与连体网络非常相似的深度学习架构

问题描述

我必须实现这个网络:

在此处输入图像描述

类似于具有对比损失的孪生网络。我的问题是S1/ F1。论文这样说:

F1并且S1是我们用来分别学习面部和语音模态的单位归一化嵌入的神经网络。在图 1 中,我们描述了训练F1S1测试例程。它们由 2D 卷积层(紫色)、最大-池化层(黄色)和全连接层(绿色)。所有层之间使用 ReLU 非线性。最后一层是单位归一化层(蓝色)。对于面部和语音模态,F1返回S1250 维单位归一化嵌入”。

我的问题是:

  1. 如何将 2D 卷积层(紫色)应用于具有形状的输入(number of videos, number of frames, features)
  2. 最后一层是什么?批量规范?F.normalize?

标签: pythondeep-learningneural-networkpytorchsiamese-network

解决方案


我将回答您的两个问题,而不会过多介绍:

  1. 如果您使用的是 CNN,您的输入中很可能包含空间信息,即您的输入是二维多通道张量(*, channels, height, width),而不是特征向量(*, features)。如果您不保留二维,您根本无法对输入应用卷积(至少是 2D 卷积)。

  2. 最后一层被描述为“单元标准化”层。这仅仅是使向量的范数单位(等于1)的操作。您可以通过将所述向量除以其范数来做到这一点。


推荐阅读