资讯详情

FlipDA:有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人

超大规模预培训模型是人工智能领域研究的热点,为了帮助研究和工程师了解该领域的进展和信息,智能源社区整理了第21期预培训周刊,从论文推荐、研究动态推荐最近发生在预培训模型领域。

在本周刊中,我们选择了10篇与预训练相关的论文,包括提取问答、数据增强、开放域聊天、语言模型训练、抗体设计、蛋白质结构设计、蛋白质结构表达、变换器综述、机器翻译和知识增强预训练的探索。此外,在研究动态方面,我们选择了3条预训练信息,介绍了预训练卷积、人脸识别和预训练方法。

本周刊采用社区合作模式。欢迎感兴趣的朋友参与我们的工作,共同促进预培训学习社区的共享、学习和交流活动。您可以扫描文章末尾的二维码,加入预培训小组。 (本期贡献者:申德周 翟珂 吴新刚)

来源:智源社区

论文推荐

标题:特拉维夫大学,脸书|How Optimal is Greedy Decoding for Extractive Question Answering?(提取问答的贪婪解码有多好?

论文地址:https://www.aminer.cn/pub/6116039f5244ab9dcb6c444d?f=cs

代码地址:https://github.com/ocastel/exact-extract

推荐理由:作者提出的问答数据集中提出的准确提取算法接近最佳效果

简介:微调语言模型利用贪婪解码成功回答阅读理解问题。但这种方法并不能保证答案是给定段落中的短句,也不能保证答案是最有可能的。贪婪解码实际上比段落提取算法差吗?我们提出了最优贪婪的解码和性能"精确提取",解码算法能有效地找到文章中最可能的答案跨度。我们比较T5和两种解码算法在零样本和少样本上的提取问答性能明显优于贪婪解码时,准确提取明显优于贪婪解码;然而,当有可用的训练样本时,到精确提取的性能。随着训练集的增长,贪婪解码变得更加提取,越来越有可能产生最可能的跨度。我们还表明,自我监督训练可以使模型更倾向于提取行为,而不需要注释来改善性能零样本设置。一般来说,我们的结果表明,预训练的语言模型非常擅长适应提取问答,即通常微调贪婪算法的小型训练集来满足最佳解码策略。

标题:清华|FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning(FlipDA:有效稳定的数据增强小样本学习)

论文地址:https://www.aminer.cn/pub/6119e5ac5244ab9dcb89133f?f=cs

代码地址:https://github.com/zhouj8553/FlipDA

推荐理由:自然语言理解中的数据增强算法在大多数评估中取得了最佳效果

简介:大多数以前的文本数据增强方法仅限于简单的任务和弱基线。我们探索了困难任务的数据增强和强基线(即参数超过1亿的预训练模型)。在此背景下,我们研究了大量以前的增强方法,发现这些方法最多只能带来边际效益,有时甚至会大大降低性能。为了应对这一挑战,我们提出了一种新的数据增强方法FlipDA,它使用生成模型和分类器生成标签翻转数据。FlipDA概念的核心是发现生成标签翻转数据对性能更重要,而不是生成标签保留的数据。实验表明,FlipDA实现了有效性和稳定性之间的良好折衷——它大大提高了许多任务的性能,不会对其他任务产生负面影响。

标题:苹果、布朗大学、亚马逊Low-Resource Adaptation of Open-Domain Generative Chatbots(适应开放域低资源的生成聊天机器人)

论文地址:https://www.aminer.cn/pub/6119e5ac5244ab9dcb89133d?f=cs

代码地址:https://github.com/facebookresearch/ParlAI

推荐理由:在开放式对话领域,参数减少了90%,同时保持了大模型效果

简介:在开放聊天机器人领域的建设中,最近的工作证明了增加模型尺寸可以提高性能。另一方面,延迟和连接性方面的考虑决定了数字助理在设备上的便携性。像Siri、Alexa或Google Assistant数字助理讨论任何事情的能力都需要减少聊天机器人模型的大小。我们证明了低参数模型可以同时保持其一般的知识对话能力,提高特定领域的效果。此外,考虑到问题类型的多样性,在多轮对话中跟踪参考,消除不一致的框架和潜在的毒性反应,我们提出了一个通用的建议。我们的框架在聊天中无缝事务任务之间无缝转换,最终使与数字助理的互动更加人性化。根据1个内部基准和4个公共基准,我们评估框架的混淆度和人类评估指标,建立可比性能,并将模型参数降低90%。

标题:谷歌|Large-Scale Differentially Private BERT(私有大规模差异BERT)

论文地址:https://www.aminer.cn/pub/610a4f805244ab9dcbc815aa?f=cs

推荐理由:我们在软件和硬件方面取得了最新的进展,并为私人使用差异BERT-Large预训练建立基线。该模型通过将批量尺寸扩展到数百万个例子,并采用其他优化,如提高标准化层下网络的训练性和测量梯度信噪比,实现高精度。

简介:在这项工作中,我们研究了私有差异SGD(DP-SGD)的BERT-Large大规模预训练。结合认真实施,批量大小扩大到数百万DP-SGD的BERT效用;我们还通过增加批次规划来提高效率。我们的实现是基于最近的工作,一些学者证明了有效使用JAX原语,结合XLA最小化编译器DP-SGD降低步数的费用。我们的实现在2M在批次大小下实现60.掩码语言模型精度为5%,损失为5%.36。正确看待这个数字,非私有BERT模型的准确率约为70%。

标题:清华、伊利诺伊香槟分校 | Deep geometric representations for modeling effects of mutations on protein-protein binding affinity (深度几何表征用于建模突变对蛋白质-蛋白质结合亲和力的影响)

论文地址:https://www.aminer.cn/pub/610d12b95244ab9dcb7f3ddc?f=cs

推荐理由:从监督图神经网络中提取蛋白质表征

简介:模拟氨基酸突变在蛋白质工程和药物设计中起着关键作用。本文开发了GeoPPI,以结构为基础的深度学习框架,预测突变后结合亲和力的变化。基于蛋白质的三维结构,GeoPPI首先,通过自我监督的学习计划,学习编码蛋白质结构拓扑特征的几何表征。然后,这些变后蛋白质-蛋白质结合亲和力的变化,这些表征被用作训练梯度增强树的特征。作者通过实验发现GeoPPI在预测六个基准数据集的单点和多点突变后的亲和力变化方面取得了新的先进性能。此外,本文还表示GeoPPI最近发现的几种可以准确估计SARS-CoV-抗体与S蛋白受体结合域的结合亲和力差异。

标题:NIT Trichy、Nference | AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing (AMMUS:基于自然语言处理Transformer预训练模型综述)

论文地址:https://www.aminer.cn/pub/61163b659e795e94de91b49b?f=cs

推荐理由:基于Transformer的NLP预训练综述

简介:基于Transformer几乎所有的预训练语言模型都在NLP这些模型在任务中取得了巨大的成功GPT和BERT等建立在Transformer、自监督学习和迁移学习的模型。基于Transformer预训练语言模型利用自我监督学习从大量文本数据中学习一般语言表征,并将这些知识转移到下游任务中。在这份全面的研究报告中,作者首先总结了自我监督学习。其次,解释了预训练、预训练方法、预训练任务、嵌入和下游自适应等各种核心概念。最后,本文提出了一种新的预训练模型分类方法,然后简要介绍了包括内外在内的各种基准。本文总结了处理预训练模型的各种有用库。

标题:ACL 2021|腾讯AI Lab、香港汉语:用单语记忆翻译高性能神经机器(NMT)

论文地址:https://www.aminer.cn/pub/60acd92891e011a83767370d?f=cs

推荐理由:提出了一种新的方法来改进双语语料库作为翻译记忆库,使用单语记忆和跨语言实施可学习的记忆检索。

简介:与使用双语语料库作为翻译记忆库(TM)与采用源相似性搜索进行记忆检索的现有工作相比,腾讯AI Lab它与香港中文大学提出了一个新的框架,使用单语记忆和跨语言进行可学习的记忆检索。本研究首先将翻译任务转化为检索和生成两个步骤,并描述了跨语言记忆检索模型和记忆增强翻译模型的模型设计。最后,本文展示了如何使用标准最大的训练联合优化,并通过交叉对齐预训练解决了冷启动问题。值得注意的是,即使不使用额外的单语数据,这种方法也比使用双语要好TM基线法。由于能够利用单语数据,该研究还证明了所提模型在低资源和领域适应场景中的有效性。

标题:谢菲尔德大学,杜汉姆大学|ExBERT:增强外部知识的自然语言推理

论文地址:https://www.aminer.cn/pub/610a4cac5244ab9dcbc624f7?f=cs

推荐理由:自然语言推理(NLI)引入外部知识的预训练模型

简介:在大型非结构化语料库中提前训练的神经语言表明,该模型对现实世界的常识知识缺乏明确的基础,通常无法记住推理和推理所需的事实。NLI引入一种称为外部知识增强的方法BERT新模型:ExBERT,以使用来自外部知识源的现实世界常识知识来富上下文表示,并增强BERT的语言理解和推理能力。ExBERT充分利用从BERT获得的上下文词表示,并利用从知识图中检索相关的外部知识并对检索到的外部知识进行编码。该模型自适应地结合了对输入进行推理所需的外部知识上下文。在具有挑战性的SciTail和SNLI基准上进行的大量实验证明了ExBERT的有效性:与之前的最新技术相比,我们在SciTail上获得了95.9%的准确率,在SNLI上获得了91.5%的准确率。

研究动态

标题:NLP任务非Transformer不可?谷歌大规模研究发现预训练卷积模型往往更优

简介:在当前NLP领域,基于Transformer的模型可谓炙手可热,其采用的大规模预训练方法已经为多项自然语言任务的基准带来了实质性的提升,也已经在机器翻译等领域得到了实际应用。但之前却很少有研究者思考:预训练是否也能提升卷积在NLP任务上的效果?近日,资源雄厚的Google Research的一项大规模实证研究填补了这一空白。结果发现,在许多NLP任务上,预训练卷积模型并不比预训练Transformer模型更差。

论文链接:https://www.aminer.cn/pub/6099052391e011aa8bcb6e79?f=cs

标题:基于人脸图像复原和人脸转正联合模型的人脸识别方法

简介:在现实生活中许多因素可能会影响人脸识别系统的识别性能。为了应对这些挑战,之前的人脸识别方法通常先把低质量的人脸图像恢复成高质量人脸图像,然后进行人脸识别。但这些方法大多是阶段性的、不是最优方案。本文中提出一种多退化因子的人脸复原模型MDFR,来一次性解决所有的这些影响因素。MDFR可以从给定的多姿态、多重低质量因素影响的人脸图像中复原其高质量的正面人脸图像。MDFR是一个设计良好的编码器-解码器网络结构。在模型的构建中,作者引入了姿态残差学习策略,以及一个基于3D的姿势归一化模块PNM,该模块可以感知输入人脸姿态和正面人脸姿态之间的差异,以此差异来指导人脸的转正学习。实验表示,训练完成之后的MDFR可以通过一个单一化的网络,一次性地从多重低质量因素影响的侧面人脸图像中恢复其高清的正面人脸图像,并有效的提高人脸算法的识别率。

论文链接:https://www.aminer.cn/pub/60a7a2c491e011f90a51ded7?f=cs

标题:ACL2021|多粒度输入信息不降低推理速度,腾讯看点和阿尔伯塔大学提出高效预训练方法LICHEE

简介:现有的预训练语言模型大多是基于单粒度训练而成的,通常伴随细粒度的字符或sub-word,这使其很难学习粗粒度词汇和短语的准确含义。为了得到更加准确的模型,部分研究者试图通过在预训练阶段mask连续token的序列,将粗粒度信息纳入到用细粒度分词训练的模型中。还有研究者提出了一种可以处理多粒度输入文本的模型AMBERT:利用两个具有共享权重的编码器将细粒度token和粗粒度token分别编码为两个上下文表示序列。AMBERT效果尚可、但推理成本却比原始BERT高了约一倍,这在业界的很多场景下都是不可接受的。在本文提出了一种简单但高效的预训练方法:荔枝LICHEE。该方法可以在预训练阶段有效利用多种粒度的输入信息来增强预训练语言模型的表示能力。

论文链接:https://www.aminer.cn/pub/6103d7ba91e01159791b20de?f=cs

AI赋能的科技情报挖掘系统(AMiner - AI赋能科技情报挖掘)

AMiner是一个科技情报分析与挖掘平台,利用AI为用户高效获取和理解科研情报,内容囊括论文、学者、专利、报告、会议、专题集等多种形式,涵盖计算机科学、医学、通信、地学、物理等40个学科,通过智能推荐引擎、搜索引擎、关注订阅等获取想要的知识。

标签: 单粒连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台