image-processing - 什么是新颖的对象字幕?为什么 MS-COCO 中的 8 个类被排除在此任务中?
问题描述
我正在使用图像字幕,但我很难准确理解这个术语novel object captioning
。这是我们在句子-描述对上训练了一个模型,然后将其应用于包含从未出现在训练过程中的对象的数据集吗?我是从Neural Baby Talk中读到的。DCC还在简介中指出:
现有的最先进的字幕模型缺乏形成组合结构的能力,这些结构将新对象与已知概念整合在一起,而没有图像句子对的明确示例。为了解决这个限制,我们提出了深度组合字幕(DCC),它可以结合词汇单元的视觉基础来生成关于不存在于字幕语料库(成对的图像句子数据)中但存在于对象识别数据集中的对象的描述。未配对的图像数据)和文本语料库(未配对的文本数据)。
他们提到了大约 8 类 MS-COCO 被排除在外,novel object captioning
但我不太明白这一步的含义。
为了确保排除的对象至少与某些包含的对象相似,我们使用第 3.4 节中描述的 word2vec 嵌入的向量对 MSCOCO 分割挑战中注释的 80 个对象进行聚类,并从每个聚类中排除一个对象。选择以下单词:“bottle”、“bus”、“couch”、“microwave”、“pizza”、“racket”、“suitcase”和“zebra”。
对于第二个问题,我在这里添加,但期待更深入的解释:
为了评估我们的方法执行域外图像字幕的能力,我们使用 MSCOCO 复制了现有的实验设计 (Hendricks et al., 2016)。按照这种方法,所有带有提及八个选定对象(或其同义词)之一的标题的图像都被排除在图像标题训练集中。这将字幕训练集的大小从 82,783 张图像减少到 70,194 张图像。然而,完整的字幕训练集被标记为每个图像的一个词袋,并作为图像标签训练数据提供。因此,在图像说明训练数据中看不到所选对象,但在图像标签训练数据中看不到。Hendricks 等人选择的排除对象。人。(2016) 来自 MSCOCO 的 80 个主要对象类别,分别是:“瓶子”、“公共汽车”、“沙发”、“微波炉”、“披萨”、“球拍”、
那么现在,我该怎么理解out of domain image captioning
呢?是一样的novel image captioning
吗?
有图像字幕经验的人可以帮我澄清这些问题吗?我会很感激你的帮助。
解决方案
推荐阅读
- sql - 对 XML 使用 Nodes() 方法没有结果
- algorithm - 需要用于加权桶之间的比例值分布的算法
- php - 在发送到数据库之前更新每个学说查询
- .net-core - .NET Core 中 appsettings.json 中的相对路径配置
- c# - 如何自定义 ASP .NET Web API JWT 令牌响应?
- sharepoint - “枚举站点”是否已退出测试版?
- c++ - 无法确定两个正方形/矩形是否相互交叉
- sql - 将 LINQ 查询转换为 SQL 查询
- java - JBoss EAP 6.1 的 Infinispan 超时异常
- node.js - 如何从 json 对象中提取特定字段并将其存储在 node.js 中的字符串中