资讯详情

1000层transformer横空出世!

转自新智元微信官方账号

编辑:David 拉燕

最近,微软研究所的研究人员制定了1000层Transformer,多语种机器翻译任务刷新SOTA

近年来,追求大规模追求Transformer模型已成为一种趋势。

从最初的数百万模型参数,到10亿,再到数万亿,参数规模大大增加。大型模型可以在大量任务中表现得更好,并在学习小样本和零样本时表现出优秀的能力。

尽管参数越来越多,但参数的深度一直在增加Transformer训练的不稳定性有限。2019年,科学家Nguyen和Salazar发现,基于post-norm连接的pre-norm可以提高残差连接Transformer的稳定性。

底层Pre-LN梯度会比顶层大,导致和谐Post-LN相比之下,性能会下降一点。

为了解决这个问题,研究人员试图提高深度Transformer优化。这是通过更好的初始化或架构来实现的。这些方法使Transformer也可以在数百层的情况下保持稳定。

但还是没有办法可以做到Transformer的层数到达1000.

4f8e6fa0b46f186d4739f3fc2434cb15.png

论文链接:https://arxiv.org/abs/2203.00555

近日,微软研究院的一篇论文成功实现Transformer层数量级突破,达到1000层。

研究人员的目标是不断提高Transformer训练的稳定性继续提高模型的深度。他们研究了优化不稳定性的原因,发现模型参数规模的爆炸性增加导致了这种不稳定性。

基于上述结论,研究人员在残差连接处使用了一种新的标准化函数——DEEPNORM。理论上,这种新函数可以将模型的更新限制在一个常数以内。

这种办法看似简单,实则有效,只需要改变几行代码而已。

新函数,Transformers稳定性大大提高。研究人员还可以将模型的深度扩展到1000层。

此外,DEEPNORM还成功将Post-LN和Pre-LN结合优异的性能。新方法是Transformers的上位替代,对于深度的模型和大规模的模型都是如此。

值得一提的是,目前最先进的是12B与参数48层模型相比,3.2B参数200层模型实现5 BLEU推广。这部分推广主要体现在大规模多语言机器翻译基准上。

在基于Transformer的PostLN使用新发现的方法并不难。Post-LN相比,DEEPNORM在层次标准化之前,对残差连接进行了升级。

此外,研究人员在初始化过程中降级了参数。特别是,它们增加了前馈网络的比例,并增加了注意力层的价值投影和输出投影。

而差连接与初始化规模和整体结构有关。

超深的Transformer:DEEPNET

研究人员引入了超深Transformer——DEEPNET. 升级过程中遇到的问题通过缓解模型的巨大增长,DEEPNET优化过程可以更稳定。

首先,研究人员给出了它DEEPNET模型升级的预测量级。然后进行了理论分析,发现只要使用DEEPNORM,DEEPNET升级过程可以限制在常数上。

DEEPNET基于Transformer和以前一样vanilla Transformer相比之下,研究人员的最新研究被用于每个子层。DEEPNORM,而不是Post-LN。

DEEONORM表达式可以写成:

其中,α是常数,Gl(xl , θl)是第I层Transformer同时,子层的方程θl是系数。DEEPNET残余内部的权重也可以放大β。

α和β它们都是常数,只与结构有关。

另外,注意力是Transformer一个非常重要的部分。

在不失一般性的情况下,研究人员研究了1-head情况Q、K、V分别指query、key和value。而WQ、WK、WV都是输入的映射矩阵。WO它是输出的映射矩阵。因此,可以写注意力方程:

下图显示了早期训练阶段,vanilla Post-LN和DEEPNET升级模型时的情况。研究人员将是64-128-2微小Transformer可视化,其深度从6开始L6L到100L100L不等。

从这张图中我们可以看出,DEEPNET比Post-LN更新更稳定。

性能:1000层网络显著提升NMT表现

我们验证了流行的机器翻译基准DEEPNET有效性,包括 IWSLT-14德语-英语(De-En)数据集和WMT-17英语-德语(En-De)数据集。

我们将DEEPNET多个最先进的深层Transformer比较模型,包括DLCL、NormFormer、ReZero、R-Fixup,T-Fixup,DS-init等。

我们用上述其他模型的开源代码重现了基线的标准性能,并设置了相同的超参数。BLEU评估结果如下:

上表为基线和DEEPNET的结果和DEEPNET在WMT-17 英语-德语翻译数据集的结果

与Post-LN与模型相比,DEEPNET更稳定,可成功扩展到100L-100L,28个测试集.9的BLEU。相比之下,当深度达到50时L-50L时,带有Post-LN的基线导致了不稳定的优化。此外,当模型较浅时,DEEPNET性能与这些基线相当。

我们将模型的深度从10开始L-10L到100L-100L,除了ReZero3.所有实验均在混合精度训练下进行。如上图所示IWSLT-14数据集上的结果。

我们对模型进行了8000步的训练,因为我们发现大多数收敛发生在优化的开始。总的来说,DEEPNET从浅到深都很稳定,收敛很快,只用了8000步就达到了30多个BLEU,大多数基线都达不到这个水平。此外,随着模型深度的增加,其性能也在提高。

我们将进一步DEEPNET分别扩展到更高的学习率、批量规模和隐藏维度。

在每个实验中只改变一个超参数,其他超参数是固定的。如上图所示WMT-17验证集上的损失曲线。

结果表明,在此设置下,DEEPNET可以毫无困难地训练。由于过拟合,1024个隐藏尺寸,DEEPNET的损失在10K步后增加。DEEPNET可以从更大的设置中获益,获得更快的收敛速度和更低的验证损失。

我们对大型多语言机器翻译进行了实验,这是一个很好的大型测试平台。

首先使用OPUS-对模型进行评估。OPUS100是一个以英语为中心的多语言语料库,涵盖100种语言OPUS集合随机抽取。DEEPNET扩大到1000层。该模型有500层编码器、500层解码器、512个隐藏尺寸、8个注意力和2048维前馈层。

如上图所示,实验结果表明,增加网络深度可以显著提高神经机器翻译的翻译质量:48层基线平均比12层模型3.2分BLEU分数增长。

DEEPNET深度可成功扩展到1000层,比基线高4层.4 BLEU。而且DEEPNET只训练了4个epoch,若计算预算较多,其性能也可进一步提高。

为了探索DEEPNET我们还使用多语言神经机器翻译的局限性CCMatrix扩大训练数据的规模。CCAligned、OPUS和Tatoeba以覆盖4的数据Flores101评估集的所有语言。最终数据包括102种语言、1932个方向和120亿句对。

利用这些数据,我们使用100层编码器、100层解码器、1024个隐藏维度、16个头和4096个中间维度的前馈层进行训练DEEPNET,结果如下:

综上,DEEPNET提高了Transformer稳定性,并成功地将其扩展到1000层。理论上,它证明了模型更新的恒定是稳定优化的。实验结果验证了我们方法在各种基准中的有效性。

目前的实验侧重于机器翻译作为测试平台。未来,我们将扩展DEEPNET,支持更多不同的任务,如语言模型预训练、蛋白质结构预测和BEiT视觉预训练等。

参考链接:

https://arxiv.org/abs/2203.00555

推荐阅读:

2022年互联网校招分享

我的2021总结

浅谈算法岗和开发岗的区别

互联网校招研发工资汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇总汇

对于时间序列,你所能做的一切.

什么是时空序列问题?这类问题主要应用了哪些模型?主要应用在哪些领域?

保持谦逊、保持自律、保持进步

发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)

发送【1222】获取一份不错的leetcode刷题笔记

标签: 075k1l100只电阻器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台