首页 > 技术文章 > 深度域适应综述_一般情况与复杂情况(学习笔记)

Jason66661010 2020-10-27 10:53 原文

深度域适应综述_一般情况与复杂情况(学习笔记)

图释

image-20201027105032017

摘要

信息时代产生的大量数据使机器学习技术成功地应用在许多领域。大多数机器学习技术需要满足训练集与测试集独立同分布的假设, 但在实际应用中这个假设很难满足.。域适应是一种在训练集和测试集不满足独立同分布条件下的机器学习技术。一般情况下的域适应只适用于源域目标域特征空间与标签空间都相同的情况, 然而实际上这个条件很难满足。

为了增强域适应技术的适用性, 复杂情况下的域适应逐渐成为研究热点, 其中标签空间不一致复杂目标域情况下的域适应技术是近年来的新兴方向。随着深度学习技术的崛起, 深度域适应已经成为域适应研究领域中的主流方法。本文对一般情况与复杂情况下的深度域适应的研究进展进行综述, 对其缺点进行总结, 并对其未来的发展趋势进行预测。

概述

机器学习已经在许多领域中成功应用, 但是收集并标注与测试集具有相同分布的样本的代价是高昂的. 当训练集和测试集的分布存在差异时, 由训练集得到的模型不能在测试集上取得良好的预测结果. 迁移学习就是解决训练集(源域)与测试集(目标域)之间存在分布差异的机器学习方法, 其核心是找到源域和目标域之间的相似性, 并利用相似性将在源域中获得的知识应用于目标域.

迁移学习按照问题的背景设置可以划分为两类, 第一类是源域目标域标签空间和特征空间都相同的域适应, 即一般情况下的域适应, 第二类是复杂情况下的域适应, 其包含多个子方向, 如标签空间不一致的域适应, 复杂目标域情况下的域适应等. 一般情况下的域适应问题是背景条件约束更严格的迁移学习问题. 复杂情况下的域适应问题可以通过对一般情况下的域适应方法改进加以解决。域适应问题是迁移学习领域中的研究重点, 是迁移学习的基本问题.

深度学习是近年来机器学习领域的研究热点. 深度学习算法从大规模数据中提取知识, 其性能显著超越传统机器学习方法. 深度学习取得优异性能的原因在于深度神经网络具有很强的特征提取能力. 多层的网络结构意味着可以获得关于样本的更高层次的语义信息, 这种信息可以帮助网络更好地完成任务. 应用在域适应问题中的深度学习方法被称为深度域适应, 其中心思想是用深度神经网络对齐源域与目标域的数据分布. 与传统方法相比, 深度域适应方法获得的特征不仅有更强的泛化能力还有更好的可迁移性. 深度域适应方法正是在这个背景下兴起的.

域适应问题根据目标域有无标签可以分为有监督域适应和无监督域适应. 无监督域适应方法可以很容易地被扩展应用到有监督域适应中, 因此在域适应领域,无监督域适应方法是研究的重点。本文的写作线索为从域适应问题开始, 逐步扩展到更加通用的场景, 即复杂情况下的域适应, 其包括标签空间不一致和复杂目标域情况下的域适应问题。

文章主要内容

本文的主要内容有:

(1)介绍了影响目标域泛化误差的因素对域适应算法设计的指导作用和抑制负迁移的方法.

(2)对深度域适应方法进行了综述, 从领域分布差异, 对抗学习, 信息重构和样本生成四个方面对深度域适应方法的最新进展进行了归纳总结.

(3)由于源域和目标域的标签空间不一致是现实中的常见现象, 所以本文将标签空间不一致的域适应方法作为单独的一节进行综述.

(4)目标域包含多个子目标域或者目标域不可知是域适应领域中两个具有挑战性的问题, 本文对这一类复杂目标域情况下的域适应方法进行了综述.

(5)对域适应的应用进行了介绍并展示了一部分域适应方法的实验结果.

(6)对深度域适应方法, 复杂情况下的域适应方法进行了展望和总结

1.迁移学习概述

1.1 迁移学习, 域适应以及深度域适应的形式化定义

迁移学习

迁移学习(Transfer Learning): 给定一个有标签的源域\(D_s=\{x^s_i,y^s_i\}^{n_s}_{i=1}\) (其中, \(x_i^s\)为样本, \(y^s_i\)为标签,

推荐阅读