资讯详情

国产GPU重大利好!“中国英伟达”千卡集群已就位

金磊 发自 凹非寺,量子位 | 民众号 Qbit

根底办法设置装备摆设,北京市有了最新的大行动——

此中,《计划》在“保证步伐”中提出了对企业利好的设施:,加快完成智算资本提供自立可控。

对自动举行绿色节能革新的存量,根据投资额的必定比例赋予支撑。

对企业扩充资金的行动,意在晋升算力券政策效力,鼓动勉励企业用好智能算力资本,加速推进赋能行业使用。

除此以外,在《计划》的计划目的中,也开释出了一个首要的旌旗灯号——

转变智算设置装备摆设“小、散”场合排场,集合设置装备摆设一批智算繁多大集群。

到2025年,本市智算提供范围达到45EFLOPS,2025-2027年依据野生智能大模子进展需要和国度相干安排进一步优化算力结构。

为什么会云云?这就要连系当下算力市场的展开来看了。

一方面,自从问世引爆以来,大模子的数目堪称是极速增进,单是北京这一座都会,就曾经领有家大模子立异团队,约占天下的一半,大模子数目更是居天下首位。关于算力市场的需要之大可见一斑。

不但云云,跟着、Suno等使用的问世,大模子的进展未然加快驶入阶段,的需要在为主旋律的当下还会继续下跌。

另外一方面,AIGC固然带火了“N卡”,但今朝着眼于环球未然是一卡难求的态势,而且因稀缺致使其价钱日趋水涨船高。

并且单从GPU的功能角度来看,即便是英伟达也只能接收的究竟,算力提供方需求另一种体式格局来举行计较——

经由过程芯片与芯片间的连贯手艺,一步步构建出大型

聚焦到海内,实在这类“集群”模式也曾经紧锣密鼓地在睁开,海内已有很多厂商在不息索求和实际,比方巨子、公司等等。

以摩尔线程为例,就在前不久他们宣布了名为的智算集群解决计划,旨在以一体化托付的体式格局解决大规模GPU算力的设置装备摆设和运营治理题目,能够大幅下降传统算力设置装备摆设、使用开辟和运维运营平台搭建的时候本钱。

从这一点来看,海内市场算力的进展是与《计划》所提出的“智算资本提供集群化”是相符合的,也从正面印证着

然而,门路虽已清楚,但在实际进程傍边,尤其是GPU数目达到千卡以至万卡时,集群落地并非是件易事。

那末难点都有甚么?国产GPU又是若何应答的?咱们连续往下看。

千卡GPU集群落地痛点

起首咱们需求懂得GPU集群在实践落地过程当中的范围会达到甚么量级。

以Llama 3为例,在它问世之际,Meta就颁布了其根底办法详情:

咱们在两个定制的24K GPU集群上做锻炼。

与之类似的,马斯克的Grok 2据悉锻炼曾经用了20000张H100,Grok 3更是传出需求惊人的100000张;即使是参数目仅为30亿的Sora,GPU的数目也估算在4200至10500张之间。

而事实上,当下要餍足一些根底模子的算力需要,未然是标配同样的存在;这不仅仅是因为千卡是大集群的基础单位,更是由于百卡或更小范围的GPU数目每每餍足不了大模子锻炼需要,只能是实验性的。

但智算集群中GPU的数目也还只是一方面,之于GPU自身,在诸如锻炼大模子等落地过程当中的难点也是很多。

由于设置装备摆设集群自身仍是一个异常庞杂的系统性工程,它不仅是堆GPU这么简略,从一个GPU到一个,再到把它们组成群,时期包含了的网络、存储、、再到大模子调理等种种细节要素,均会影响到集群的终究功能。

比方同样是Llama 3,Meta在先容根底办法的时间还提到了一个关头信息:

当在16K GPU上同时锻炼时,咱们有效地完成了每一个GPU跨越400 TFLOPS的

若是每张卡的利率用不够高,很显然就会下降终究智算集群的服从。

再如分布式锻炼过程当中,一张卡坏掉就会影响团体的锻炼,关于千卡以至更大范围的集群来讲,这类情形涌现的几率就会更高;是以关于千卡集群的稳定性和可靠性也提出了极高的请求。

聚焦到国产智算集群,还需得具有能够兼容支流GPU软件的才能(比方CUDA),由此能力应答更多且日月牙异的支流大模子使命。

……

一言蔽之,构建千卡智算集群难,构建国产千卡智算集群难上加难。

若何破局?

虽然说逆境重重,但也正如上文所言,已经在索求与实际,而且他们在构建千卡智算集群这件事上也已交出了

咱们无妨以摩尔线程的夸娥(KUAE)解决计划为例,来看下构建国产GPU智算集群的破局之道。

团体来看,夸娥(KUAE)智算中央解决计划是一个以全功能GPU为底座,软硬件一体化的全栈的解决计划。

之所以叫做全栈,是因为夸娥的才能是涉及到了构建GPU智算集群中的方方面面,包孕最底层的、中间层的,以及下层的

起首来看

从内容上来看首要包括夸娥(KUAE)计较集群、R网络与分布式存储三大方面。据了解,其设置装备摆设周期只要30天,可支撑千亿参数模子的预锻炼、微谐和推理,可完成高达91%的千卡集群功能扩大系数。

而且基于大规模智算加速卡和双路8卡GPU服务器的才能,夸娥集群还支撑从单机多卡到多机多卡,从单卡到千卡集群的无缝扩大。

据悉将来将推出更大范围的集群,以餍足更大范围的大模子锻炼需要。

其次是

这一软硬件一体化平台主如果用于锻炼、分布式图形衬着、处置和迷信计较等事情,深度集成全功能GPU计较、网络和存储,供应高靠得住、高算力办事。

经由过程这个平台,用户可灵巧治理多数据中央、多集群算力资本,集成多维度运维监控、告警和日记体系,赞助智算中央完成运维自动化。

最初是

覆盖了大模子预锻炼、微谐和推理全流程,支撑所有支流大模子。经由过程摩尔线程MUSIFY开辟对象,能够轻松复用CUDA使用生态,内置的容器化解决计划,则可完成一键安排。

这个平台意在供应大模子性命周期治理,经由过程简明、易操纵的交互界面,用户可按需构造工作流,大幅下降大模子的应用门坎。

那末实践结果若何?

据了解,摩尔线程今朝曾经支撑了包孕LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等在内的各类支流大模子的锻炼和微调:

以200B锻炼数据量为例,智源研究院70B参数Aquila2可在33天实现锻炼

1300亿参数范围的模子可在56天实现锻炼

至于适才提到的千卡GPU集群落地难的各种细节,摩尔线程也有本人的应答计谋。

例如在这件事上,摩尔线程接纳软硬件协同设想和端到端的并行计谋,经由过程对库的算法、和硬件的规格举行经心设想与设置,完成了高度的集群兼容性。

详细到手艺,则是综合利用了MTLink和PCIe,使得通信功能晋升一倍,综合调优下MFU晋升幅度跨越50%。

方面,摩尔线程在根儿上先保障GPU的品质,从卡出厂开端便举行多项严峻的检测。

厥后,摩尔线程还开发了集群体系监控和诊断对象,有助于筛选和倏地定位到有题目的卡和服务器能够主动复原和硬件替代而且连系异步检查点(Checkpoint加快时候从10分钟降到速率从40分钟降到2分钟;即使是遇到锻炼非常体系能够主动从新拉起。

方面今朝曾经支撑包孕DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界支流分布式框架。

除此以外融会了多种并行算法计谋包孕数据并行、张量并行、流水线并行和ZeRO,且针对高效通讯计较并行和Flash Attention做了额定优化最初,在方面,摩尔线程代码移植Musify对象,可快速将现有支流迁移至MUSA,

借助摩尔线程计较对立体系架构MUSA,用户能够复用PyTorch开源社区少量模子算子下降开辟本钱团体而言,摩尔线程的夸娥智算集群计划上风能够归结为八点,即:

它就像把所有庞杂计划打包成为了一把钥匙,交付到用户手上开箱即用并且摩尔线程的夸娥(KUAE)智算集群解决计划不只是说说那末简略曾经做到了上岗。

据了解今朝曾经成为了

就在前不久,摩尔线程与清华守业公司杀青分工,成为第一家接入胜利实现千卡级别模子锻炼的国产GPU公司两边联结推动基于夸娥(KUAE)千卡智算集群的“MT-infini-3B分工模子今朝功能已在范围模子中跻身前线而且

由此可见,摩尔线程的夸娥千卡智算集群是得到了实际考证的那种那末最初一个题目就是:

从GPU性能情形来看,摩尔线程仅有可以对标英伟达的国产GPU企业尽管单芯片功能另有差距,但若是集成起来就可解决单一性缺乏跟着2023年模子的火爆这类GPU集群偏向就显得加倍精确究竟宣布B200之际暗示咱们需求更大的GPU假如不克不及更大,就把更多GPU组合在一起酿成更大虚构GPU是以当初转头再看摩尔线程其时计谋抉择,确实是具有前瞻性的。

总而言之气力手艺计谋,也有问题,摩尔线程还将在国产GPU进展道路上带来怎么样欣喜,是值得期待了。

参考链接:[1]https://www.mthreads.com/product/KUAE[2]https://jxj.beijing.gov.cn/zwgk/zcjd/202404/t20240425_3637629.html[3]https://ai.meta.com/blog/meta-llama-3/

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台