,谷歌团队推出著名的八层模型,在人脸识别方面大幅提升了准确率,带动了硬件层面卷积的普及。
,谷歌团队又推出基于自注意力机制的模型,在语义理解方面大幅提升了语音翻译效果,带动了硬件层面GEMM的普及。
,OpenAI团队推出一种预训练语言模型GPT(Generative Pre-trained Transformer),也就是最初代的(12层),并通过了。
图源:WAIC,天数智芯
也许在GPT-1时代,大众还没有什么感受,但GPT-3、GPT-4架构下的ChatGPT让人工智能成功出圈,并产生了全球性的“”。于是,我们从硬件的角度来看,GPT到底带来了哪些变革?
事实上,算力是关乎大模型产品成功与否的关键,那么呢?天数智芯副总裁邹翾表示:“对于来讲,预计,而对于来讲,为了追赶头部企业的步伐,他们在基础设施方面的。”
正是在这样的大算力需求下,市面上英伟达的贵出天际。据悉,国内几家头部互联网厂家都向英伟达下了1.5万-1.6万的A800和H800订单,每家的金额在十几亿美金左右,而这些产能将在2024年得到基本保障。
在这样的大背景下,我们看到新闻,竟然有人开始走私GPU卡,特斯拉CEO马斯克对此表示:“目前,”。当然,违法的行为不可取,但我们真切地看到了大模型“算力发动机”的威力。
换言之,大模型对硬件的最大需求就是要有,那么这个“可用”到底如何体现呢?通常可以从三个方面来理解:
需要利旧现有算法模块,且调优经验可借鉴
需要可支持模型的快速变形,快速支持新算子,以及快速支持新通讯(重组)
需要满足访存全交换和计算全互联
结合当前市场上的可用产品,主要包括GPU和。然而,相比于ASIC芯片,GPGPU具有更强的通用性,所以在主流的
此外,虽然说大模型不像中、小模型那样依赖CUDA生态,看上去GPGPU和ASIC在大模型上的差距没有那么大,但不管是模型的训练还是部署,大模型早期的开放框架都是基于GPGPU架构实现的,因此,而ASIC还处在开局阶段。
对此,邹翾表示:“作为国内第一家实现,当前已经实现了,并在大模型训练领域取得了阶段性进展,完成了。”
下图中为天数智芯推出的天垓100加速卡已经支持的模型训练集合:
图 | 天垓100已支持百亿级参数大模型训练
从市场方面来看,邹翾认为:“去年还主要是天垓100在出货,而今年天垓100和智铠100一起出货,在整体市场体量方面会更加趋好。”