deep-learning - 深度学习 - 特征金字塔网络

问题描述

我有一个关于特征金字塔网络（FPN）架构中下采样过程的符号的问题。我不确定，堆栈溢出是否真的是这个问题的最佳地点。因此，非常欢迎任何有关更好地方的提示。

我的问题最好用 FPN 的一位原始作者的演示文稿中的以下图片来说明：

资料来源： http: //presentations.cocodataset.org/COCO17-Stuff-FAIR.pdf，幻灯片 11

1 和 1/4 的比例注释对我来说很有意义。显然，我们从全尺寸开始，经过一个池化步骤，我们有 1/4 的比例，因为我们在 x 和 y 方向上缩小了 2 倍。但据我了解，按照同样的逻辑，在下一个阶段（即下一次池化之后），我们应该有 1/16 的比例。在下一步 1/64 等之后。我错过了什么？

标签： deep-learningcomputer-visionnotation

经过一个轮询步骤后，您将获得 1/2 而不是 1/4 的比例。比例是指沿轴的变化，而不是面积的比率。那么为什么你一开始有1/4的变化呢？正如幻灯片 11 所述，该图指的是 resnet/resnext 模型。如果我们看一下 resnet 模型架构，我们可以看到首先我们有一个 7x7 的卷积，步幅为 2 ，然后我们有一个步幅为2的轮询层，所以总的来说我们每个轴减少了 1/4。在接下来的阶段，我们只有步幅为 2 的轮询，所以我们只得到因子 2 的变化。即 1/8、1/16 1/32。

deep-learning - 深度学习 - 特征金字塔网络 - 如何理解下采样符号？

问题描述

解决方案

推荐阅读