deep-learning - 已知 3D CAD 对象的 6D 姿态估计,对新对象进行有限模型训练
问题描述
我正在做一个项目,我需要在单个 RGB 图像中估计已知 3D CAD 对象的 6DOF 姿势 - 即这个任务:https ://paperswithcode.com/task/6d-pose-estimation 。这个问题有几个限制条件:
- 可商业使用(在 BSD、MIT、BOOST 等下获得许可),而不是 GPL。
- CAD 对象是已知的,我们的目标不是一概而论(即识别所有椅子的类别)。
- CAD 对象可以由用户上传,因此它可能具有对称性和一系列纹理。
- 推理步骤将在智能手机上运行,并且应该能够以 >30fps 的速度运行。
- 推理步骤可以是 a) 一次找到对象的位姿,然后我可以编写代码继续跟踪它,或者 b) 连续找到对象的位姿。即模型在找到初始姿态估计后不需要任何连续的细化步骤。
- 可以是从单个对象的单个实例到多个对象的多个实例 (MiMo) 的任何地方。MiMO 是首选,但不是必需的。
- 如果使用深度学习方法,新 CAD 对象所需的训练时间应该是几小时而不是几天。
- 可以 1) 只找到对象的初始姿势,之后没有任何细化步骤,或者 2) 找到对象的初始姿势,之后也有细化步骤。
我对传统方法持开放态度(即 2D->3D 对应然后使用 PnP 解决),但深度学习方法似乎优于它们(经典方法太慢 -从单个 2D 图像或已知 3D CAD 对象的实时 6D 姿态估计或当对象一个在另一个之上时来自 RGBD 相机的点云?)。纵观深度学习方法(poseCNN、HybridPose、Pix2Pose、CosyPose),它们中的大多数似乎都符合这些约束条件,只是它们需要模型训练时间。虽然也许我可以使用一个预先训练的模型,然后用更短的训练步骤将它专门用于每个新的 CAD 对象。但我不确定这一点,我认为成功可能取决于选择的具体模型。例如,这个项目说它需要 3 个小时的训练时间:https://github.com/DLR-RM/AugmentedAutoencoder。
所以,我的问题是:有人知道什么是最先进的、商业上可用的、不需要大量培训时间来对新 CAD 对象进行培训的实施方式吗?
解决方案
推荐阅读
- javascript - 反应看到除了数组之外的所有东西
- visual-studio - 在 Visual Studio 中发布 .NET Core 网站期间如何重新启动 IIS 网站?
- networking - 如何为corda网络创建自签名证书?
- postgresql - pg-promise - 不解决多个查询
- postgresql - 在任何删除实际发生之前执行触发器
- python-3.x - po2html 缺少 html 模板
- python - Python:获取子列表中的每个第一个、第二个、第三个元素
- java - Java 代码如何在 Jenkins 构建期间读取 Jenkins Global 凭据?
- sql - 不使用 EXISTS 引入子查询时,选择列表中只能指定一个表达式。(子查询)重复
- python - 在python(jupyter)中复制一个变量/使用具有相同变量的不同函数