首页 > 解决方案 > 什么是可切换的空洞卷积以及我们为什么使用它?

问题描述

我试图理解一篇名为“DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution”的研究论文。我不明白的是“可切换的 Atrous Convolution”是如何工作的以及我们为什么使用它?我知道 Atrous/Dilated convolution 是什么,但这里的 Switchable 是什么?它是如何确定的?在在这里提出这个问题之前,我花了几天时间试图掌握这个概念。

以下是我收集和阅读的链接(也可能对您有所帮助):

arxiv 上的官方研究论文

获得高级概述的中型博客

可切换 Atrous Convolution 的 Python 实现(官方 GitHub 存储库)

我真的很珍惜你的时间。

谢谢你。

标签: machine-learningdeep-learningcomputer-visionpytorchobject-detection

解决方案


我正在回答我自己的问题,希望对其他人有所帮助。SAC 像一个软开关一样工作,更像是一个混合系数,它告诉我们从空洞卷积(具有不同的空洞率)中获取什么信息并将它们混合起来。由于“S”依赖于 1x1 卷积具有可训练的参数,这有助于网络学习最佳混合系数。这就是我们的算法如何使用不同的感受野(不同的空洞率)两次查看图像以捕获重要的语义级别信息,这对于对象检测和语义/实例分割很重要。

这些图像对我展开信息有很大帮助。

在此处输入图像描述

在此处输入图像描述


推荐阅读