一、unimo
1.优点:训练数据包括文本、图像、图文对数据的训练,不限于图文对数据
2.策略和模型
(1)文本改写(Text Rewriting):为了提高多粒度图像的语义对齐能力,论文从句子级、短语级、词汇级三个粒度重写了图像的文本描述。 基于句子级(Back Translation,也就是说,机器翻译模型被翻译成各种其他语言,然后翻译回来,并使用机器翻译模型的能力获得多个图片的例子文本,而不改变句子的原始意图。 进一步,利用自然语言离散化符号的特性,基于TF-IDF字面词汇重复率高,但含义不同的句子作为图片的强负样本。 在短语级和词汇级别,首先,然后随机替换物体(object)、属性(attribute)和关系(relation)以及它们的组合,获得这两个粒度的强负例。
(2)图像/文本检索(Image and Text Retrieval):为了将更多的单模态知识更多的单模态知识,从大型单模态数据中检索到的背景知识将进一步增强和丰富图形信息。这部分检索到的数据将与图形对中的另一个模态数据组成弱相关。
(3)视觉和文本学习
3、实验
文本语料包括预训练数据部分 Wikipedia、BookCorpus、OpenWebText 等语料;图像数据是从互联网上爬取的 300K 图像包括多模图文 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。 下游任务不仅包括视觉问答、图形描述生成、视觉推断等多模任务,还包括文本分类、文本摘要、问题生成等。 多模任务的结果非常亮眼,各大任务都是SOTA,特别是在检索任务方面有很大的优势。从论文中给出的Case Show来看,UNIMO更好地准确理解和捕捉细节。 表1:多模式下游任务评估结果。表2:单模式下游任务评估结果。 如表1所示,作者将UNIMO和ViLBERT、VLP、UNITER、Oscar、Villa、ERNIE-ViL比较了多模态预训练模型,结果表明,UNIMO总的来说,取得了最好的成绩。如表2所示,UNIMO比较语言理解和生成任务BERT、RoBERTa、XLNet和UniLM预训练模型表现更好或相当。UNIMO它不仅在多模态任务中取得了最好的成绩,而且在单模态任务中也取得了良好的成绩,证明了统一模态系统架构的优势。
reference:https://mp.weixin.qq.com/s/7NYe59gKu6-js32tfy4xBw