首页 > 技术文章 > re-id 综述相关阅读记录

ahuzcl 2018-01-10 10:23 原文

一.对比损失:

对比损失用于训练孪生网络(Siamese network),其结构图如上图所示。孪生网络的输入为一对(两张)图片基于深度学习的行人重识别研究综述(上)基于深度学习的行人重识别研究综述(上),这两张图片可以为同一行人,也可以为不同行人。每一对训练图片都有一个标签基于深度学习的行人重识别研究综述(上),其中基于深度学习的行人重识别研究综述(上)表示两张图片属于同一个行人(正样本对),反之基于深度学习的行人重识别研究综述(上)表示它们属于不同行人(负样本对)。之后,对比损失函数写作:

基于深度学习的行人重识别研究综述(上)

二.三元组损失:

三张图片分别命名为固定图片(Anchor) a ,正样本图片(Positive)p和负样本图片(Negative) n 。图片 a 和图片 p 为一对正样本对,图片 a 和图片 n 为一对负样本对。则三元组损失表示为:

基于深度学习的行人重识别研究综述(上)

三.四元组损失:

,四元组(Quadruplet)需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片(Anchor) a ,正样本图片(Positive) p  ,负样本图片1(Negative1) n1 和负样本图片2(Negative2) n2 。其中 n1 和 n2 是两张不同行人ID的图片,其结构如上图所示。则四元组损失表示为:

基于深度学习的行人重识别研究综述(上)

四.难样本采样三元组损失:

TriHard损失的核心思想是:对于每一个训练batch,随机挑选 P 个ID的行人,每个行人随机挑选 K 张不同的图片,即一个batch含有 P×K 张图片。之后对于batch中的每一张图片 a ,我们可以挑选一个最难的正样本和一个最难的负样本和 a 组成一个三元组。

首先我们定义 a 和为相同ID的图片集为 A,剩下不同ID的图片图片集为 B,则TriHard损失表示为:

基于深度学习的行人重识别研究综述(上)

五.边界挖掘损失:

边界样本挖掘损失(MSML)是一种引入难样本采样思想的度量学习方法。三元组损失只考虑了正负样本对之间的相对距离。为了引入正负样本对之间的绝对距离,四元组损失加入一张负样本组成了四元组。四元组损失也定义为:

基于深度学习的行人重识别研究综述(上)

假如我们忽视参数 α 和 β 的影响,我们可以用一种更加通用的形式表示四元组损失:

基于深度学习的行人重识别研究综述(上)

其中 m 和 n 是一对负样本对,m 和 a 既可以是一对正样本对也可以是一对负样本对。之后把TriHard loss的难样本挖掘思想引入进来,便可以得到:

基于深度学习的行人重识别研究综述(上)

其中 a,p,m,n 均是batch中的图片,a,p 是batch中最不像的正样本对,m,n 是batch 中最像的负样本对,a,m 皆可以是正样本对也可以是负样本对。概括而言TriHard损失是针对batch中的每一张图片都挑选了一个三元组,而MSML损失只挑选出最难的一个正样本对和最难的一个负样本对计算损失。所以MSML是比TriHard更难的一种难样本采样,此外基于深度学习的行人重识别研究综述(上)可以看作是正样本对距离的上界,基于深度学习的行人重识别研究综述(上)可以看作是负样本对的下界。MSML是为了把正负样本对的边界给推开,因此命名为边界样本挖掘损失。总的概括,MSML是同时兼顾相对距离和绝对距离并引入了难样本采样思想的度量学习方法。

 

推荐阅读