冗余性和互补性它是存在多模态各种特征的基础

1.双线性池化

特征融合是输入两种模式的特征向量，输出融合后的向量。最常用的方法是拼接、按位乘、按位加。有作者认为这些简单的操作效果不如外积/叉乘tensor，建模两种模式之间的复杂关系是不够的。但外积计算存在复杂性过高的问题。双线性（Bilinear）是计算向量外积。双线性池化（Bilinear Pooling）是双线融合后的特征池化。例如LMF（Low-rank Multimodal Fusion），PTP (polynomialtensor pooling) 详细说明双线性池化、改进及相关论文 Ps：挑战模态对齐模态对齐面临许多困难：显示标记模态对齐的数据集很少；模态之间的相似性测量难以设计；模态对齐和模态中有多种可能的模态对齐elements可能在另一个模式中没有对应。

2.表示多模态特征

主要任务是学习如何更好地提取和表达多模态数据的特征信息，以利用多模态数据的互补性主要问题是：（1）如何组合来自不同模式的数据 (2)如何处理不同模式下不同程度的噪声（3）如何处理缺失数据。联合特征表示（Joint representations）表示和谐特征（coordinated representations）。联合特征意味着将每个模态信息映射到相同的特征空间，而协同特征意味着每个模态的信息分别映射，但确保每个模态之间有一定的约束，使它们进入并行映射的协同空间。(投影到分离但相关的空间) 联合特征表示多模态数据的任务主要用于训练和测试阶段。协同特征表示它是为每个模态学习一个单独的特征提取模型，通过一个约束协调不同的模态，更适合测试中只有一个模态数据的任务，如多模态检索和翻译。协作架构包括跨模式相似模型和典型相关分析，旨在在协调子空间中寻求模式之间的关联；由于不同模式包含不同的信息，协作方法有利于保持每个模式的独特特征和排他性，

协作架构已广泛应用于跨模式学习。主流的协作方法是基于交叉模式的相似性，旨在通过直接测量向量与不同模式之间的距离来学习公共子空间。基于交叉模式相关性的方法旨在学习共享子空间，以最大化不同模式表示集的相关性。
交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构，期望相同语义或相关对象的跨模态相似距离尽可能小，不同语义的距离尽可能大。
与其他框架相比，协作架构的优点是每个单一模式都可以独立工作，有利于跨模式迁移学习，其目的是在不同的模式或领域之间传递知识。缺点是模式集成困难，使跨模式学习模式难以实现，模式难以在两种以上模式之间实现转移学习。

三、多模态融合(fusion)

多模态集成是将来自各种不同模式的信息集成起来，用于分类任务或返回任务。值得注意的是，在最近的工作中，多模态表示与集成之间的界限模糊，表示学习与分类或返回目标交织在一起。优点有三，一是比单模式更鲁棒，二是模态信息互补，三是缺乏模态信息仍能运行

模型无关的方法（Model-agnostic approaches）不依赖具体的机器学习方法 (可兼容任何分类器或回归器)

早期集成：提取特征后，连接简单，利用低水平特征之间的相关性和相互作用，培训容易（特征集成、多模式表示的早期尝试），但不能充分利用多模态数据之间的互补性，存在信息冗余问题（可由PCA，AE等方法缓解) pixel level：对原始数据最小粒度进行融合。

晚期集成：对不同的模式进行不同的模式训练，然后集成，更好地建模每个模式数据（不集成，类似于继承学习），模型独立，强大。融合方式是在特征生成过程中（如多层神经网络中间）自由融合，实现更大的灵活性，本质上忽略了模式之间的低水平交互，即基本特征之间的关系（推理结果集成）可以简单地处理数据的异步性通过投票机制、加权、signal variance或者融合模型 decision level 整合决策结果与整合学习非常相似。
混合：多者结合

基于模型的方法（Model-based approaches）基于内核的方法（Multiple kernel learning）：SVM扩展，不同模式，不同核心，灵活选择kernel异构数据可以更好地集成，主要优点是MKL损失函数为凸函数，可获得全局最优解，模型训练可采用标准优化package而且整体优化方法，缺点在于测试时对数据集的依赖推理速度慢，缺点是在测试过程中依赖于训练数据(sv)，测试慢内存大概率图模型（Graphical models）：生成模型(联合概率)和概率模型(条件概率)、耦合和阶乘隐马尔可夫模型和动态贝叶斯网络，CRF 图形模型可以很容易地探索数据中的空间和时间结构，并将专家知识嵌入到模型中，模型也可以解释神经网络模型（Neural networks）：多模态特征提取部分和多模态集成部分可以进行端到端训练，学习其他方法难以处理的复杂决策边界。神经网络方法的主要缺点是可解释性差，需要依赖大量高质量的训练数据。

融合挑战

1.不同模式的信息在时间上可能不完全对齐，有些模态信号密集，有些模态信号稀疏。 2.融合模型很难利用模态之间的互补性 3.不同模态数据的噪声类型和强度可能不同

4.多模态共同学习

目的是通过探索另一种模式信息来帮助当前模式建模相关场景：模型资源有限，缺乏标记数据或输入噪声大，标签可靠性低 1.并行数据:共享模式之间的实例集合有两种方法:协同训练和表征学习协同训练：当一个模式的标记数据非常少时，可以使用协同训练生成更多的标记训练数据(图像增强RGB，文本增强德法语的翻译)，或使用模式之间的不一致性样品的过滤不可靠协同训练方法可以生成更多的标记数据，但也可能导致overfitting

迁移学习：多模态玻尔兹曼机或多模态自编码器将一个模态特征表示转换为另一个模态特征表示，这不仅可以获得多模态表示，而且可以在单模态推理过程中获得更好的性能。

2.非并行数据:有共享的类别或概念，不需要依赖模式间共享的例子（concept）即可迁移学习：迁移学习能够从一个数据充分、干净的模态学习特征表示迁移这种迁移学习常用的多模态协同特征表示实现到另一个数据稀缺、噪声大的模态。（zero shot）

Conceptual grounding：通过语言和其他额外的模式，如视觉、声音，甚至味觉，学习语义，简单地使用文本信息不能很好地学习语义，例如，当人们学习一个概念时使用它所有感知信息而不是简单的符号。(共感/通感)

grounding通常通过寻找特征表征之间共同隐空间或者分别学习每个模式特征表示拼接，conceptual grounding和多模态特征对齐它们之间有很高的重叠部分。

需要注意的是，grounding在所有情况下，性能都不能提高，只有当grounding与具体任务相关时有效，如在视觉相关任务中使用图像grounding

3.混合数据：通过共享模式或数据集连接两个非数据并行模式。图像描述等典型任务将与至少一种语言建立联系，语言可以通过机器翻译任务建立联系。

如果目标任务只有少量的标记数据，也可以使用类似或相关的任务来提高性能，如使用大量的文本语料来指导图像分割任务（有点prompt的意思）。

通过寻找模态之间的互补信息，多模态协同学习使一个模态影响另一个模态的训练过程。多模态协同学习与任务无关，可用于更好地整合、转换和对齐多模态特征。

5.整理关键技术

设计一个Vision-Language 事实上，预训练模型主要涉及三个关键技术：特征提取、特征融合和预训练任务。 (1)特征提取要解决的问题是如何量化文字和图像，然后送到模型学习？ (2)特征融合要解决的问题是怎么让文字和图像的表征交互？ (3)预训练任务是如何设计一些预训练任务，帮助模型学习图文对齐信息？当然还有其他零散的，但也很重要trick，比如: (1) 训练的数据是文本和图像pair，怎么挖掘？ (2) 如何增量学习训练好的预训练模型？ (3) 如何压缩训练好的预训练模型？ (4) … 这三种技术的一般做法是： (1) 特征提取：文本端的标准标准是bert的tokenizer，可能更早LSTM；图像是使用一些传统的经典卷积网络，主要有三种提取形式Rol、Pixel、Patch三种形式。 (2) 特征融合：目前的主流做法不超过两种，即双流two-stream或者单流single-stream；前者基本上是双塔网络，然后在模型的最后设计一些layer因此，双流结构的交互发生较晚。例如，后者是一个网络transformer，它从一开始就进入网络进行交互，因此单流结构的交互时间发生得更早、更灵活；当然，还有另一种Multi-stream(MMFT-BERT)，目前还不多，不排除未来基于图文音等的出现Multi-steam多模态模型。 (3) 预训练任务：这里就是最有意思的地方，也是大部分多模态paper的idea体现。这里就先总结一些常见的标配任务，一些特色的任务后面paper单独介绍。

  5.1 Masked Language Modeling ( MLM )：传统的文本屏蔽语言模型，针对的是文本流。

  5.2 Masked Region Modeling（MRM）：模仿MLM，只不过这里是对图片进行随机mask，针对的是图像流。被随机屏蔽的概率是15% ，替换成 0 和保持不变的概率分别是 90%和10%，这里又可以细化的分为Masked Region Feature Regression (MRFR) ，Masked Region Classification (MRC)和Masked Region Classification with KL-Divergence (MRC-kl)。主要的loss分别是L2 regression，cross-entropy (CE) loss，KL divergence 。

  5.3 Image-Text Matching ( ITM ): 图文匹配任务，针对的是图文交互流，即判断当前pair是不是匹配（就是个分类任务），具体的是将图片的IMG token和文本的cls做element-wise product再经过一个MLP层来做相似性的监督学习。

可以看到其实 5.1是Language-Modal的，5.2是Vision-modal的，5.3是Cross-modal

Conclusion

(1)基本上现在的标配：就是single-modal层面的MASK预测，以及cross-modal层面的对齐学习。 (2) single-stream好还是two-stream好，目前没有一个绝对的结论，就目前看使用single-stream更多一些，使用single-stream的好处是特征融合更早更充分，使用two-stream一个明显的优势是参数量更多（意味着可以容纳更多的信息），先在前期提取了各种低阶特征，进而在高阶进行融合。 (3) 图像的提取Rol到Pixel到Patch，目前使用Rol方式居多，但是必然缺失了很多信息，最直观的就是空间，尽管一些模型都显示的加了位置embedding，但是一些隐式的也有缺失，毕竟目标外的甚至是目标检测模型不能检测的目标信息都丢失了，所以从包含的信息的角度考虑后两种更全。 (4) 粒度越来越细。语言模态上：从简单的MLM到mask 场景图，视觉模态上：从单纯的mask region 区域到mask object目标，kaleido-BERT的设计的AKPM任务等等。对齐任务上面的比如：kaleido-BERT的设计的AGM。这里也是可以挖掘的一个方向可以更细粒度，当然难点就是要挖掘的粒度下的训练pair的挖掘。对齐先验知识很重要，这块有更大的挖掘空间。 (5) 数据量越来越大。不论是使用对比学习还是什么手段，本质上就是为了使的模型可以利用更大的数据集。谁能利用的数据量更大且谁能挖掘更细粒度的对齐，效果应该是越好。 (6) 大一统模态即一个模型同时可以多模态单模态可能是一个方向，因为其利用的数据可以更多，且一个模型解决可以覆盖所有任务，应用也广。这个作者有图文介绍，结合着看可能会更好多模态文本分类

资讯详情

多模态关键任务与应用综述（从表示到融合，从协同学习到关键技术梳理）

冗余性和互补性它是存在多模态各种特征的基础

1.双线性池化

2.表示多模态特征

三、多模态融合(fusion)

融合挑战

4.多模态共同学习

5.整理关键技术

Conclusion

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

多模态关键任务与应用综述（从表示到融合，从协同学习到关键技术梳理）

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录