首页 > 解决方案 > 深度学习 - 特征金字塔网络 - 如何理解下采样符号?

问题描述

我有一个关于特征金字塔网络(FPN)架构中下采样过程的符号的问题。我不确定,堆栈溢出是否真的是这个问题的最佳地点。因此,非常欢迎任何有关更好地方的提示。

我的问题最好用 FPN 的一位原始作者的演示文稿中的以下图片来说明:

FPN的编码器

资料来源: http: //presentations.cocodataset.org/COCO17-Stuff-FAIR.pdf,幻灯片 11

1 和 1/4 的比例注释对我来说很有意义。显然,我们从全尺寸开始,经过一个池化步骤,我们有 1/4 的比例,因为我们在 x 和 y 方向上缩小了 2 倍。但据我了解,按照同样的逻辑,在下一个阶段(即下一次池化之后),我们应该有 1/16 的比例。在下一步 1/64 等之后。我错过了什么?

标签: deep-learningcomputer-visionnotation

解决方案


经过一个轮询步骤后,您将获得 1/2 而不是 1/4 的比例。比例是指沿轴的变化,而不是面积的比率。那么为什么你一开始有1/4的变化呢?正如幻灯片 11 所述,该图指的是 resnet/resnext 模型。如果我们看一下 resnet 模型架构,我们可以看到首先我们有一个 7x7 的卷积,步幅为 2 ,然后我们有一个步幅为2的轮询层,所以总的来说我们每个轴减少了 1/4。在接下来的阶段,我们只有步幅为 2 的轮询,所以我们只得到因子 2 的变化。即 1/8、1/16 1/32。


推荐阅读