首页 > 解决方案 > 使用完全卷积网络的直接热图回归

问题描述

我正在尝试开发一个全卷积神经网络来估计包含已知 3D 模型渲染的图像中关键点的 2D 位置。我已经阅读了大量关于这个主题的文献(人体姿势估计、基于模型的估计、具有已知结构的被遮挡对象的图形网络),但到目前为止我所见过的任何方法都不允许估计任意数量的不同类的关键点图片。我见过的每种方法都经过训练,可以为 k 个关键点类输出 k 个热图,每个热图有一个关键点。就我而言,我想为 k 个关键点类回归 k 个热图,每个热图具有任意数量的(非重叠)点。

在这个玩具示例中,网络将围绕每个形状的上顶点的每个可见位置输出热图。立方体顶部有 4 个顶点,挤压五边形有 2 个,金字塔只有 1 个。有时点在屏幕外或被遮挡,我不希望输出遮挡点的热图。

在此处输入图像描述 在此处输入图像描述

该架构是一个 6-6 层的 Unet(如本文https://arxiv.org/pdf/1804.09534.pdf中所示)。地面实况热图是以每个关键点为中心的正态分布。当以 5 的批大小和 l2 损失训练网络时,网络学会了从不做任何估计,只输出空白图像。数据类型被正确转换并规范化,从 0 到 1 的输入和 0 到 255 的输出。我不确定如何解决这个问题,我的一般方法是否有任何危险信号?如果一般没有明显的问题,我会发布代码......

标签: kerasdeep-learningcomputer-visionconv-neural-networkkeypoint

解决方案


推荐阅读