论文名称:Generalizing to Unseen Domains: A Survey on Domain Generalization 论文下载:https://arxiv.org/abs/2103.03097 论文年份:2021 78(2022/05/07) 论文代码:https://github.com/jindongwang/transferlearning/tree/master/code/DeepDG
论文总结
Abstract
Machine learning systems generally assume that the training and testing distributions are the same. T o this end, a key requirement is to develop models that can generalize to unseen distributions. . Domain generalization deals with a challenging setting where . Great progress has been made in the area of domain generalization for years. This paper presents the first review of recent advances in this area. First, we provide a formal definition of domain generalization and discuss several related fields. We then thoroughly review the theories related to domain generalization and carefully analyze the theory behind generalization. , and present several popular algorithms in detail for each category. Third, we introduce the commonly used datasets, applications, and our open-sourced codebase for fair evaluation. Finally, we summarize existing literature and present some potential research topics for the future.
。为此,一个关键要求是。近年来,,它引起了越来越多的兴趣。域泛化处理具有挑战性,包括。多年来,该领域的泛化方向取得了巨大的进展。本文首次回顾了该领域的最新进展。首先,我们提供了领域泛化的正式定义,并讨论了几个相关领域。然后,我们彻底回顾了与域泛化相关的理论,并仔细分析了泛化背后的理论。我们将是最近的,并详细介绍了几种流行的算法。第三,我们介绍了常用的数据集、应用程序和我们的开源代码库进行公平评估。最后,我们总结了现有的文献,并提出了未来的一些潜在研究课题。
1 INTRODUCTION
机器学习 (ML) 在计算机视觉、自然语言处理、医疗保健等领域取得了显著成功。 ML 该模型的目标是从训练数据中学习一般性和预测性知识,然后将该模型应用于新的(测试)数据。。然而,这种假设并不总是建立在现实中。。收集所有可能领域的数据进行训练 ML 模型是昂贵的,甚至是不可能的。因此,在工业和学术领域都很重要。 。如图 1 所示,。例如,给定一个由草图、卡通图像和绘画图像组成的训练集。域泛化需要训练一个良好的机器学习模型。该模型在分类自然图像或照片图像时有最小的预测误差。这些图像显然有来自训练集中图像的明显分布。在过去的几年里,该领域在计算机视觉和自然语言处理方面取得了重大进展。虽然取得了进展,但该领域没有对其主要思想、学习算法等相关问题进行全面的介绍和总结,为未来提供研究意见。
本文提出了关于。希望本次调查能为感兴趣的研究人员提供全面的回顾,激发对该领域及相关领域的更多研究。
在我们论文的会议版本之后,有几篇调查论文,与我们的论文大不相同。 写一个关于 DG 综述,重点是计算机视觉领域。。他们的工作集中在因果关系和稳定的神经网络上。相关调查论文 [5] 用于 OOD 对任何看不见的环境进行检测,而不是构建工作算法。
这篇论文是我们以前写的 IJCAI-21 调查轨道上接受的短篇论文的大幅扩展版本(6 页面,包含在附录文件中)。与短篇论文相比,该版本扩展如下:
- 我们提出了。
- 例如,我们通过添加新类别来扩展这种方法:启发因果关系的方法(causality-inspired methods)、特征解耦(feature disentanglement)生成建模,不变风险最小化(invariant risk minimization)、基于梯度操作的方法(gradient operation-based methods) 综合总结其他学习策略 DG 方法。
- 对于所有类别,我们通过包括更多相关的算法、比较和讨论来扩大对方法的分析。我们还包括最近的论文(超过 30% 新工作)。
- 我们扩数据集和应用程序的范围,探索了领域泛化的评价标准。最后,我们建立了一个名字 DeepDG1 的用于 DG 对公共数据集的结果进行了一些分析。
本文组织如下。我们在第 2 本节阐述了域泛化问题,并讨论了其与现有研究领域的关系。第 3 介绍了域泛化的相关理论。在第 4 在本节中,我们详细描述了一些具有代表性的内容 DG 方法。在第 5 在节中,我们展示了一些从传统环境扩展而来的新环境 DG 研究领域。第 6 第一节介绍应用 7 节介绍 DG 基准数据集。我们总结了对现有工作的看法,并在第一位 8 节日提出了一些可能的未来方向。最后,我们在第一 9 本文总结了
2 BACKGROUND
2.1 Formalization of Domain Generalization
本节将介绍本文中使用的符号和定义。
定义 1:域(Domain)。令 X \mathcal{X} X 表示非空输入空间, Y \mathcal{Y} Y 表示输出空间。。我们将其表示为 S = ( x i , y i ) i = 1 n ∼ P X Y \mathcal{S} = {(x_i, y_i)}^n_{i=1} ∼ P_{XY} S=(xi,yi)i=1n∼PXY,其中,标签, P X Y P_{XY} PXY 表示输入样本和输出标签的联合分布。 X X X 和 Y Y Y 表示相应的随机变量。 定义 2:域泛化(Domain generalization)。如图 2 所示,在域泛化中,给定 M M M 个训练(源)域 S t r a i n = { S i ∣ i = 1 , ⋅ ⋅ ⋅ , M } \mathcal{S}_{train} = \{\mathcal{S}^i | i = 1, · · · , M\} Strain={ Si∣i=1,⋅⋅⋅,M} 其中 S i = { ( x j i , y j i ) } j n i = 1 \mathcal{S}^i = \{(x^i_j, y^i_j)\}^{n_i}_j=1 Si={ (xji,yji)}jni=1 表示第 i i i 个域。每对域之间的联合分布不同: P X Y i ≠ P X Y j , 1 ≤ i ≠ j ≤ M P^i_{XY} \neq P^j_{XY}, 1 ≤ i \neq j ≤ M PXYi=PXYj,1≤i=j≤M。(即,在训练中不能访问 S t e s t \mathcal{S}_{test} Stest 并且 P X Y t e s t ≠ P X Y i f o r i ∈ { 1 , ⋅ ⋅ ⋅ , M } P^{test}_{XY} \neq P^i_{XY} \ for \ i ∈ \{1, · · · , M\} PXYtest=PXYi for i∈{ 1,⋅⋅⋅,M})。 其中 E \mathbb{E} E 是期望值, l ( ⋅ , ⋅ ) \mathscr{l}(·,·) l(⋅,⋅) 是损失函数。
我们在表 1 中列出了常用的符号。
2.2 Related Research Areas
与域泛化密切相关的研究领域包括但不限于:。我们在表 2 中总结了它们与域泛化的差异,并在下面简要描述了它们。
[7] 联合优化几个相关任务的模型。通过在这些任务之间共享表示,可以使模型更好地泛化原始任务。请注意,。特别是,。
[9, 10, 11] 。
[12, 13] 近年来也很流行。 DA 旨在使用现有的训练源域最大化给定目标域的性能。。
[14,15,16] 旨在通过从以前的经验或任务中学习来学习学习算法本身,即学习学习(learning-to-learn)。。
,关心。它。这也与 DG 不同,因为。
[22, 23] 旨在从已见类别中学习模型,并。相比之下,。
3 THEORY
在本节中,我们回顾了一些与域泛化相关的理论。由于域适应与 DG 密切相关,我们从域适应理论开始。
3.1 Domain Adaptation
对于二元分类问题,我们将源域上的真实标注函数表示为 h ∗ s : X → [ 0 , 1 ] h^{∗s} : \mathcal{X} → [0, 1] h∗s:X→[0,1](当输出在 (0, 1) 时,表示 y = 1 的概率),将目标域上的真实标注函数表示为 h ∗ t h^{∗t} h∗t。令 h : X → [ 0 , 1 ] h : \mathcal{X} → [0, 1] h:X→[0,1] 是假设空间 H \mathcal{H} H 中的任何分类器。 在源域上的分类差异可以通过以下方式测量 类似地,我们可以在期望 x ∼ P X t x ∼ P^t_X x∼PXt 时定义 ϵ t \epsilon_t ϵt。。
。[24] (Thm. 1) 给出了两个风险的界限: 然而,总变化是一个很大的距离(即,它往往非常大),可能会放松界限(4),并且很难使用有限样本进行估计。为了解决这个问题,[24] 开发了另一个界限([24],Thm. 2;[25],Thm. 1): 。令 d d d 为 H \mathcal{H} H 的 Vapnik-Chervonenkis (VC) 维度 [26], U s \mathcal{U}^s Us 和 U t \mathcal{U}^t Ut 为来自两个域的大小为 n n n 的未标记样本。那么对于任何 h ∈ H h ∈ \mathcal{H} h∈H 和 δ ∈ ( 0 , 1 ) δ ∈ (0, 1) δ∈(0,1),以下不等式以至少 1 − δ 1 - δ 1−δ 的概率成立: 力传感器bk三极管pxt8550贴片sotkl2v传感器传感器rsc系列300gi传感器px881