首页 > 解决方案 > 将图像馈送到堆叠的 resnet 块以创建嵌入

问题描述

您是否有任何引用如下图的代码示例或论文? 在此处输入图像描述

我想知道为什么我们要堆叠多个 resnet 块,而不是像更传统的架构中的多个卷积块?任何代码示例或引用一个都将非常有帮助。

另外,我怎样才能将它转移到像下面这样可以包含每个 resnet 块的自我注意模块的东西?

在此处输入图像描述

标签: pytorchcomputer-visionresnetattention-modelself-attention

解决方案


在输入图像的高分辨率下对 Resnet 块的输出应用 self-attention 可能会导致内存问题:self-attention 块的内存需求随输入大小(=分辨率)呈二次方增长。这就是为什么在例如Xiaolong Wang、Ross Girshick、Abhinav Gupta、Kaiming He Non-Local Neural Networks (CVPR 2018) 中,他们只在架构的非常深的层引入自我注意,一旦特征图基本上低于采样。


推荐阅读