machine-learning - 什么是可切换的空洞卷积以及我们为什么使用它？

问题描述

我试图理解一篇名为“DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution”的研究论文。我不明白的是“可切换的 Atrous Convolution”是如何工作的以及我们为什么使用它？我知道 Atrous/Dilated convolution 是什么，但这里的 Switchable 是什么？它是如何确定的？在在这里提出这个问题之前，我花了几天时间试图掌握这个概念。

以下是我收集和阅读的链接（也可能对您有所帮助）：

arxiv 上的官方研究论文

获得高级概述的中型博客

可切换 Atrous Convolution 的 Python 实现（官方 GitHub 存储库）

我真的很珍惜你的时间。

谢谢你。

标签： machine-learningdeep-learningcomputer-visionpytorchobject-detection

我正在回答我自己的问题，希望对其他人有所帮助。SAC 像一个软开关一样工作，更像是一个混合系数，它告诉我们从空洞卷积（具有不同的空洞率）中获取什么信息并将它们混合起来。由于“S”依赖于 1x1 卷积具有可训练的参数，这有助于网络学习最佳混合系数。这就是我们的算法如何使用不同的感受野（不同的空洞率）两次查看图像以捕获重要的语义级别信息，这对于对象检测和语义/实例分割很重要。

这些图像对我展开信息有很大帮助。

machine-learning - 什么是可切换的空洞卷积以及我们为什么使用它？

问题描述

解决方案

推荐阅读