首页 > 技术文章 > 深度学习输入支持多种不同尺度的方法

ChrisInsistPy 2022-06-15 17:42 原文

普通的分类网络最后一层为全连接层,全连接层会把输入特征图展平成向量后,输出固定类别大小的向量,所以对输入尺寸要求是固定的。

需要解决这个问题,可以用两种办法:

1、将fc层前一层的max pooling 或 avg pooling 改为pytorch adaptive avg pooling(pytorch 自带的ResNet配置),adaptive 的pooling可以解决将输出尺寸固定住,修改win_size适配不同大小的输入特征图

2、fc改为1x1的卷积,这样维度也由(1,1000)变为(1, 1000,m,n),这里m,n为输 入图片的尺寸,可以理解为在224x224大小的网络中,划窗了mxn次。可以通过将输 出的概率图resize到原图尺寸,做二值化查看网络输出的关注点,类似语义分割的思路了。

推荐阅读