资讯详情

【论文阅读】2022年最新迁移学习综述笔注(Transferability in Deep Learning: A Survey)

  • 英文标题:Transferability in Deep Learning: A Survey
  • 中文标题:深度学习中的可迁移性综述
  • 论文下载链接:arxiv@2201.05867

序言

总的来说,这个综述还是比较详细的。迁移学习本身广泛应用于人工智能,容易与其他方法结合。原文第三节的适应性非常关键,也是本笔注的关键内容。理论性很强,其他两部分比较水,很多老生常谈的东西都不记录。个人感觉是比较适合有一定机器学习基础,然后希望巩固迁移学习相关知识的人进行阅读理解。


摘要

The success of deep learning algorithms generally depends on large-scale data, while humans appear to have inherent ability of knowledge transfer, by recognizing and applying relevant knowledge from previous learning experiences when encountering and solving unseen tasks. Such an ability to acquire and reuse knowledge is known as transferability in deep learning. It has formed the long-term quest towards making deep learning as data-efficient as human learning, and has been motivating fruitful design of more powerful deep learning algorithms. We present this survey to connect different isolated areas in deep learning with their relation to transferability, and to provide a unified and complete view to investigating transferability through the whole lifecycle of deep learning. The survey elaborates the fundamental goals and challenges in parallel with the core principles and methods, covering recent cornerstones in deep architectures, pre-training, task adaptation and domain adaptation. This highlights unanswered questions on the appropriate objectives for learning transferable knowledge and for adapting the knowledge to new tasks and domains, avoiding catastrophic forgetting and negative transfer. Finally, we implement a benchmark and an open-source library, enabling a fair evaluation of deep learning methods in terms of transferability.


文章目录

  • 序言
    • 摘要
    • 1 导论 Introduction
      • 1.1 术语 Terminology
      • 1.2 概述 Overview
    • 2 预训练 Pre-Training
      • 2.1 预训练模型 Pre-Training Model
      • 2.2 监督预训练模型 Supervised Pre-training Model
        • 2.2.1 元学习 Meta Learning
        • 2.2.2 因果学习 Casual Learning
      • 2.3 无监督的预训练模型
        • 2.3.1 生成学习 Generative Learning
        • 2.3.2 对比学习 Contrastive Learning
      • 2.4 注释 Remarks
    • 3 适应性 Adaptation
      • 3.1 任务适应性 Task Adaptation
        • 3.1.1 灾难性遗忘 Catastrophic Forgetting
        • 3.1.2 负迁移 Negative Transfer
        • 3.1.3 参数功效 Parameter Efficiency
        • 3.1.4 数据功效 Data Efficiency
        • 3.1.5 注释 Remarks
      • 3.2 领域适应性 Domain Adaptation
        • 3.2.1 统计匹配 Statistics Matching
        • 3.2.2 领域对立学习 Domain Adversarial Learning
        • 3.2.3 假设对立学习 Hypothesis Adversarial Learning
        • 3.2.4 领域翻译 Domain Translation
        • 3.2.5 半监督学习 Semi-Supervised Learning
        • 3.2.6 注释 Remarks
    • 4 评估 Evaluation
      • 4.1 数据集 Datasets
      • 4.2 开源包 Library
      • 4.3 基准 Benchmark
        • 4.3.1 预训练 Pre-Training
        • 4.3.2 任务适应性 Task Adaptation
        • 4.3.3 领域适应性 Domain Adaptation
    • 5 结论 Conclusion
    • 参考文献


1 导论 Introduction

  • 预训本身就是一种迁移学习。

  • 迁移学习分为两个阶段:(pre-training)与(adaptation)。前者关注(generic transferability),后者注重具体(specific transferability)。

    f1


1.1 术语 Terminology

数学标记 具体含义
X \mathcal X span class="katex-html">X 输入空间
Y \mathcal Y Y 输出空间
f f f f : X → Y f:\mathcal X\rightarrow \mathcal Y f:X→Y是需要学习的标注函数
l l l l : Y × Y → R + l:\mathcal{Y}\times \mathcal{Y}\rightarrow \R_+ l:Y×Y→R+​是给定的损失函数
D \mathcal D D X \mathcal X X上的某个未知分布
D ^ \mathcal{\hat D} D^ 独立同分布采样自 D \mathcal D D的样本 { x 1 , . . . , x n } \{ {\bf x}_1,...,{\bf x}_n\} { x1​,...,xn​}
P ( ⋅ ) P(\cdot) P(⋅) 定义在 X \mathcal X X上的事件概率
E ( ⋅ ) \mathbb E(\cdot) E(⋅) 随机变量数学期望
U \mathcal U U 上游数据
S \mathcal S S 下游数据的源领域
T \mathcal T T 下游数据的目标领域
t ∗ t_{*} t∗​ ∗ * ∗领域的任务, ∗ * ∗可以取 T , S , U \mathcal{T,S,U} T,S,U
H \mathcal H H 假设空间(可以理解为模型集合)
h h h 假设空间中的一个假设(下文中如不作特殊说明,假设和模型含义相同)
ψ \psi ψ 特征生成器
θ \theta θ 假设参数
x \bf x x 模型输入
y \bf y y 模型输出
z \bf z z 隐层特征激活生成结果
D D D 用于区分不同分布的辨识器

给定源领域 S \mathcal{S} S的学习任务 t S t_{\mathcal{S}} tS​以及目标领域 T \mathcal T T的学习任务 t T t_{\mathcal{T}} tT​,(transferability)指从 t S t_{\mathcal S} tS​中获取可迁移的知识,将获取到的知识在 t T t_{\mathcal T} tT​中进行重用并能够使得 t T t_{\mathcal T} tT​的降低,其中 S ≠ T \mathcal S\neq \mathcal T S​=T或 t S ≠ t T t_{\mathcal S}\neq t_{\mathcal T} tS​​=tT​。


1.2 概述 Overview

本文分三部分展开:

  1. (Pre-training):关于一些重要的迁移模型架构,有监督的预训练与无监督的预训练方法综述。这部分相对浅显,只对重点内容进行摘要记录。
  2. (Adaptation):重点在(task adaptation)与(domain adaptation),这部分理论性极强,尤其是部分汇总了大量的定理与统计结果,感觉就不是同一个人写的。
  3. (Evaluation):本文提出一个开源包用于迁移学习的通用算法以及评估,项目地址在GitHub@TLlib


2 预训练 Pre-Training

2.1 预训练模型 Pre-Training Model


2.2 有监督的预训练模型 Supervised Pre-training Model

  • 有监督的预训练目的是在大规模标注数据上训练获得预训练模型,然后再迁移以增强下游任务(如Figure 5所示)。

  • 标准的有监督的预训练在标注数据量重组的情况下是非常有用的,但是它有时候对于(adversarial examples)的存在是极其敏感的,这可能会影响迁移的鲁棒性。因此本部分将会着重介绍另外两种有监督的预训练方法。


2.2.1 元学习 Meta Learning

锐单商城 - 一站式电子元器件采购平台