首页 > 解决方案 > 什么是新颖的对象字幕?为什么 MS-COCO 中的 8 个类被排除在此任务中?

问题描述

我正在使用图像字幕,但我很难准确理解这个术语novel object captioning。这是我们在句子-描述对上训练了一个模型,然后将其应用于包含从未出现在训练过程中的对象的数据集吗?我是从Neural Baby Talk中读到的。DCC还在简介中指出:

现有的最先进的字幕模型缺乏形成组合结构的能力,这些结构将新对象与已知概念整合在一起,而没有图像句子对的明确示例。为了解决这个限制,我们提出了深度组合字幕(DCC),它可以结合词汇单元的视觉基础来生成关于不存在于字幕语料库(成对的图像句子数据)中但存在于对象识别数据集中的对象的描述。未配对的图像数据)和文本语料库(未配对的文本数据)。

他们提到了大约 8 类 MS-COCO 被排除在外,novel object captioning但我不太明白这一步的含义。

为了确保排除的对象至少与某些包含的对象相似,我们使用第 3.4 节中描述的 word2vec 嵌入的向量对 MSCOCO 分割挑战中注释的 80 个对象进行聚类,并从每个聚类中排除一个对象。选择以下单词:“bottle”、“bus”、“couch”、“microwave”、“pizza”、“racket”、“suitcase”和“zebra”。

对于第二个问题,我在这里添加,但期待更深入的解释:

为了评估我们的方法执行域外图像字幕的能力,我们使用 MSCOCO 复制了现有的实验设计 (Hendricks et al., 2016)。按照这种方法,所有带有提及八个选定对象(或其同义词)之一的标题的图像都被排除在图像标题训练集中。这将字幕训练集的大小从 82,783 张图像减少到 70,194 张图像。然而,完整的字幕训练集被标记为每个图像的一个词袋,并作为图像标签训练数据提供。因此,在图像说明训练数据中看不到所选对象,但在图像标签训练数据中看不到。Hendricks 等人选择的排除对象。人。(2016) 来自 MSCOCO 的 80 个主要对象类别,分别是:“瓶子”、“公共汽车”、“沙发”、“微波炉”、“披萨”、“球拍”、

那么现在,我该怎么理解out of domain image captioning呢?是一样的novel image captioning吗?

有图像字幕经验的人可以帮我澄清这些问题吗?我会很感激你的帮助。

标签: image-processingdeep-learningnlpcomputer-vision

解决方案


推荐阅读