每天送你NLP技术干货!
作者|陈玉硕(中国人民大学高淳人工智能学院)
简介:近年来,预训练模型具有较强的泛化能力NLP,CV所有这些领域都取得了显著的效果。最近,许多工作都在尝试在多模态领域使用预训练模型。作者整理了过去两年的语言生成 (NLG) 多模态预训练模型在任务上的进展,这些论文包括多模态机器翻译 (MMT) 、生成图片/视频标题 (Image/Video Caption)、文本摘要 (Abstractive Summarization)、问答生成 (QA/VQA) 等多种 NLG 任务得到了改进。欢迎大家批评指正,互相交流。
https://aclanthology.org/2021.acl-long.202/
这项工作的主要亮点是通过单塔Transformer模型同时编码文本和图像数据。除了传统的视觉单模态学习任务外,模型还有三种预训练任务。(mask区域恢复和region文本单模态学习任务的分类(MLM任务和seq2seq生成),本文还提出了跨模态对比学习,通过重写文本的词级、片段级、句级、图文检索,产生各种粒度的图文正负样本进行跨模态对比学习。从而更好地在同一语义空间学习这些单模态和多模态信息。模型结构如下:
在下游微调任务中,UNIMO很多任务都有所提升,包括VQA任务。
https://aclanthology.org/2022.findings-acl.187/
工作前的多模态预训练模型(如CLIP)在各种多模态对齐任务中取得了良好的效果,但由于文本编码器薄弱,在文本生成任务中表现不佳。为了解决这个问题,提出了这项工作 CLIP 蒸馏的多模态知识 BART 以获得同时具有多模态知识和文本生成能力的模型。多模态知识蒸馏采用三个目标函数:
Text-TextDistanceMinimization(TTDM):损失函数是对齐的BART的编码器和CLIP文本编码器,缩短两者的表示空间 Image-Text Contrastive Learning (ITCL): 损失函数是对齐的BART的编码器和CLIP的图片编码器。即在BART编码的文本 和CLIP编码图片表示跨模态对比学习; Image-Conditioned Text Infilling (ITCL): 以上两个目标只是将军CLIP多模态信息传递给BART的编码器。损失函数 它可以理解为文本和图片编码器同时表示的conditional text generation,使得BART编码器也能理解视觉表达。
本文还测试了蒸馏后的蒸馏BART在Image Captioning, VQA以及Abstractive Summarization等待任务的表现,取得了良好的效果。
https://arxiv.org/abs/2110.09702
传统的分层循环编码器-解码器用于以往的图文多模态对话系统(HRED)这些旧模型仍然存在两个问题:(1)文本特征和视觉特征之间的互动不够好。(2) 上下文表示不完整。作为多模态对话,本工作提出了多模态、非层次的自注网络模型,该模型类似Transformer编码器-解码器结构。编码器部分主要有两部分,一部分是整合每个句子和相应图片的表示,另一部分是整合所有历史对话的表示。这两部分采用自注机制进行整合;解码器结构和Transformer的解码器结构比较类似,使用编码器的表示来生成回复。模型结构如下:
https://arxiv.org/abs/2110.09702
这项工作提出了多模态对话生成的框架,使每一轮对话都与对话的视觉上下文有关。具体来说,该工作首先提出了一个普通的视觉模型来提取视觉特征,并将其合并到序列对话框中,每个模型提取不同层次的视觉特征:从文本特征到粗粒度图像级特征,再到细粒度对象级特征。然后,发现模型学习文本特征和视觉特征的相关性仍然不高,工作提出建模文本和视觉特征之间的相互依赖,即对话模型不仅需要了解前面的对话和视觉上下文生成下一个单词的概率,还需要在对话中建模预测视觉特征的后向概率,引导模型生成特定于视觉上下文的对话句子。
https://arxiv.org/abs/2205.14100
本文的主要亮点是设计和训练生成图像到文本转换器GIT,视觉语言任务,如统一图像/视频字幕和问答。虽然生成模型在预训练和微调之间提供了一致的网络架构,但现有的工作通常包括复杂的结构(单/多模态编码器/解码器),并依赖于对象检测器/标记器和光学字符识别等外部模块(OCR)。本文提出的模型只包括两部分:图像编码器和文本解码器。图像编码器部分类似Swin的视觉Transformer,基于对比学习任务,对大量图像文本进行预训练。文本解码器部分使用类似的部分UniLM该方法以视觉部分的编码为前缀,然后使用Auto Regressive生成文本的方法。虽然该模型并不复杂,但在扩大预训练数据和模型尺寸后,该模型是Image Caption, VQA, Video Caption and Question Answering, Scene Text Recognition许多任务都取得了良好的性能。
https://arxiv.org/abs/2205.0191
这项工作的主要亮点是设计了一个多模态预训练模型,可以同时包括图形对比学习和标题生成。模型分为三部分:Image Encoder, Unimodal Text Decoder和Multimodal Text Decoder。模型首先分别输入图文Image Encoder和Unimodal Text Decoder,比较学习两者获得的表获得比较学习的损失;然后输入两个表示Multimodal Text Decoder进行Cross Attention,使用Auto Regressive生成输入文本并获得文本生成损失的方法。该模型通过这种预训练方法学习图形比较和文本生成能力。该模型通过这种预训练方法学习图形比较和文本生成能力。模型图如下:
该模型在Image Caption, VQA等NLG任务也取得了良好的效果。
7. DU-VLG: Unifying Vision-and-Languge Generation via Dual Sequence-to-Sequence Pre-training
https://aclanthology.org/2022.findings-acl.201
这项工作提出了一个具有视觉和语言生成双序列到序列预训练的模型 DU-VLG (DUal sequence-to-sequence pre-training for Vision-and-Language Generation)。这个模型是Transformer的Encoder-Decoder结构,它可以文本(或图像)为输入,自回归的生成对应的图像(或文本)。为了训练这个模型,该工作提出了两个预训练任务:Multi-modal Denoising Autoencoder Task 和 Modality Translation Task。第一个预训练任务类似MLM,将带有随机屏蔽的图像或单词的图文对作为输入,并通过重建损坏的模态来学习图像文本对齐。第二个任务则是跨模态的生成。通过这两个任务来增强模型的语义对齐能力。此外,本文还提出了一种新的commitment loss来驱动模型获得更好的图像表示。下游的微调任务表明该模型在Image Captioning, Visual Commonsense Reasoning等任务上均有提升。
https://arxiv.org/abs/2103.08862
多模态机器翻译(MMT)通过引入视觉信息来提高翻译质量。然而,现有的MMT模型忽略了图像会带来与文本无关的信息,对模型造成很大的噪声,影响翻译质量的问题。该工作提出了一种新的用于多模态机器翻译的Gumbel-Attention方法,它可以选择图像特征中与文本相关的部分。具体来说,与以往基于注意的方法不同,它首先使用可微方法来选择图像信息,并自动去除图像特征中无用的部分。通过Gumbel-Attention得分矩阵和图像特征,生成图像感知的文本表示。然后使用多模态编码器对文本表示和图像感知文本表示进行独立编码。最后,通过多模态门控融合得到编码器的最终输出。实验和案例分析表明,该方法保留了与文本相关的图像特征,其余部分有助于MMT模型生成更好的翻译。
https://arxiv.org/abs/2103.00823
这篇工作有两个主要贡献,一是提供了一个大规模的中文多模态预训练数据集,而是提出了一个跨模态预训练模型M6。该模型使用Transformer Encoder,将图片和文本编码到同一个空间中。为了该模型能够同时做理解和生成任务,它也使用了UniLM里的mask方法。该模型共有三种预训练任务:
Text-to-text Transfer: 这部分任务包含文本去噪和语言建模,主要是为了增强模型的文本理解和生成能力。
Image-to-text transfer: 这部分任务则是生成图片标题描述,通过输入的视觉信息来生成对应的文本。
Multimodality-to-text transfer: 这部分任务建立图像到文本的基础上,增加了隐藏的语言输入。模型需要学习同时基于视
觉信息和语言信息生成目标文本。
模型结构图如上所示。实验表明 M6 在VQA, Image Caption, Poem Generation等多项任务上都有提升
https://ojs.aaai.org/index.php/AAAI/article/view/16476
OCR工具可以识别的日常场景中出现的文本包含重要信息,这对于TextVQA和TextCaps这两个任务非常重要。以往的工作都使用了许多复杂的多模态编码框架来融合与文字有关的特征。该工作仅使用了简单的Attention机制来融合这些特征,它将文本特征分成两个功能不同的部分,即语言部分和视觉部分,这两个部分传入相应的Attention模块。然后再将编码后的特征传给一个Decoder,以生成答案或字幕。
EMNLP 2022 和 COLING 2022,投哪个会议比较好?
一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA
阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果
ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下