据最新新闻表露,包孕AMD、(Broadcom)、思科(Cisco)、谷歌、惠普(Hewlett Packard Enterprise,HPE)、英特尔(Intel)、Meta和微软(Microsoft)在内的八家公司宣布,他们曾经为的网络制订了新的互联手艺UALink(Ultra Accelerator Link)。经由过程为野生智能加速器之间的创建一个开放规范,以突破市场领导者 Nvidia的把持。
众所周知,英伟达是野生智能市场最大的参与者,他们在GPU上领有了绝对当先的份额。但实在除此之外,英伟达还领有一系列手艺,可用于在多个 GPU 和体系上扩大事情负载。此中包孕其片上和互连、用于或 pod 中 GPU 到 GPU 通讯的 NVLink、用于扩大 pod 以外的 Infiniband 以及用于连接到更普遍根底办法的。
当初,该行业的其余公司正试图用开放规范举行出击,以争取这些细分市场。客岁,咱们看到了 Ultra Ethernet,它应用增强型以太网旨在庖代 Nvidia 的 InfiniBand 高性能互连,后者已敏捷成为连贯 GPU 加快节点的究竟规范,而且获得了丰富的利润。
往年,咱们将取得 Ultra Accelerator Link 或 UALink ,一项旨在庖代 Nvidia 的 NVLink 协媾和 NVLink Switch(偶然称为 NVSwitch)内存布局新标准。在详细先容UALink 以前,咱们先对Nvlink举行先容。
已往,咱们看到了不少无关英伟达GPU和CUDA护城河的先容。固然,经由多年的投入,他们曾经创建起了难以超越的上风。但除此之外,如上所述,英伟达另有不少隐形护城河,NVLink便是此中的一个,一个为GPU到GPU互联供应高速连贯的手艺。
在逐步生效,但对请求越来越高的当下,这类互联显得尤其需要。
根据英伟达在民间网站中暗示,NVLink 是环球创始的高速GPU 互连手艺,为多GPU 体系供应另一种抉择,与传统的PCI-E 解决计划相比,速率方面领有显著晋升。应用NVLink 连贯两张NVIDIA GPU,即可弹性调解记忆体与效力,餍足业余视觉运算最高事情负载的需要。
相干材料表现,NVLink 最后是一种将 Nvidia GPU 卡上的内存组合在一起的要领,终究 Nvidia Research 完成了一个来驱动这些端口,同意 Nvidia 以杠铃拓扑(barbell topology )连贯两个以上的 GPU,或以十字交织方形拓扑(crisscrossed square topology)连贯四个 GPU,这类拓扑几十年来平日用于建立基于 的双插槽和四插槽服务器。
几年前, 体系需求八个或十六个 GPU 同享内存,以简化编程,并使这些 GPU 可以或许以内存速率(而不是网络速率)造访数据集。是以,实验室中的 NVSwitch 于 2018 年在基于“Volta”V100 GPU 加速器的 DGX-2 平台上敏捷商业化。
今朝,NVLink可在 GPU 之间以每秒 1.8 TB 的速率传输数据。另外,另有一个 NVLink 机架级交换机,可以或许在无壅塞计较布局中支撑多达 576 个完整连贯的 GPU。经由过程 NVLink 连贯的 GPU 称为“pod”,暗示它们有本人的数据和计较域。
实在除了Nvlink之外,另有两种连贯GPU的要领,分别是和Server-to-Server互联。据了解,规范服务器平日能够在 PCI 总线上支撑 4-8 个 GPU。经由过程应用GigaIO FabreX 内存布局等手艺,能够将这个数字增加到 32 个。
除此之外,以太网或 InfiniBand能够连贯包括 GPU 的服务器。这类连贯级别平日称为横向扩大,此中较快的多 GPU 域经由过程较慢的网络连贯以构成大型计较网络。
实在自从比特开端在机械之间挪移以来,以太网一直是网络的主力。比来,经由过程引入超等以太网同盟,该标准已被推进以供应高性能。事实上,英特尔已经在以太网上插上了互连旗号,由于英特尔 Gaudi -2 AI 在芯片上领有 24 个 100 千兆以太网连贯。
无非,Nvidia 没有到场超等以太网同盟,由于他们在 2019 年 3 月收买 Mellanox 后,基本上独占了高性能 InfiniBand 互连市场。超等以太网同盟旨在成为其余所有人的“InfiniBand”。值得一提的是,英特尔已经高举 InfiniBand 大旗。
因此在这类情况下,关于其他人来讲,除了用于连贯 MI300A APU 的 AMD Infinity Fabric 以外,没有其余抉择。与 InfiniBand/以太网的情形近似,需求某种“超等”合作敌手同盟来弥补非 Nvidia 的“pod 空白”。而这恰是UALink推出的首要缘故原由。
超等加速器链(Ultra Accelerator Link,UALink)同样是一种可进步新一代AI/ML集群功能的高速加速器互连手艺。八家创议厂商(和超等以太网同盟同样,咱们也没有在UAlink同盟中看到英伟达的身影)也成立了一个开放行业规范机构来制订相干手艺标准,以促成新应用模式所需的突破性功能,同时支撑数据中央加快器用开放生态体系的进展。
在他们看来,创议这个规范颇有需要。由于跟着AI计较需要的增进,领有稳重、低耽误且可高效纵向扩大的网络,从而轻松将计较资本添加到单个实例中相当首要。而针对纵向扩大性能制订开放的行业规范标准,有助于为AI事情负载建立开放的高性能环境,从而供应尽量高的功能。
恰是因为这个缘故原由,UALink和行业标准关于新一代AI数据中央用AI和机械进修、HPC和云的接口标准化及其完成相当首要。该工作组将制订响应的标准来界定AI计较容器组中加速器与交换机之间举行纵向扩大通讯所需的高速低耽误互连。
从相干材料能够看到,Ultra Accelerator Link 同盟的焦点于客岁 12 月就曾经创建,其时 CPU 和 GPU 制造商 AMD 和 PCI-Express 交换机制造商博通暗示,博通将来的 PCI-Express 交换机将支撑 xGMI 和 Infinity Fabric 和谈,用于将其 Instinct GPU 内存互相连贯,以及应用 CPU NUMA 链接的加载/存储内存语义将其内存连接到 CPU 主机的内存。相干新闻表现,这将是将来的“Atlas 4”交换机,它将遵照 PCI-Express 7.0 标准,并于 2025 年上市。博通数据中央解决计划集团副总裁兼总经理 Jas Tremblay 证明,这项事情仍在进行中,但不要妄下结论。换而言之,咱们不要认为 PCI-Express 是仅有的 UALink 传输,也不要认为 xGMI 是仅有的和谈。
AMD 为 UALink 项目贡献了局限更广的 Infinity Fabric 同享内存和谈以及性能更无限且特定于 GPU 的 xGMI,而所有其余参与者都批准应用 Infinity Fabric 作为加速器互连的规范和谈。英特尔高等副总裁兼网络和边缘事业部总经理 Sachin Katti 暗示,由 AMD、博通、思科体系、google、惠普企业、英特尔、Meta Platforms 和微软构成的 Ultra Accelerator Link“推动者小组”正在思量应用以太网第 1 层,并在其上接纳 Infinity Fabric,以便将 GPU 内存粘合到类似于 CPU 上的 NUMA 的伟大同享空间中。
咱们分享了若何应用以太网将 Pod 链接到更大的集群:
如thenextplatform所说,没人冀望未来自多个供应商的 GPU 连接到一个机箱内,以至多是一个机架或多个机架中的一个Pod内。但 UALink 同盟成员确凿信任,体系制造商将建立应用 UALink 的机械,并同意在客户构建其舱时未来自许多参与者的加速器放入这些机械中。您能够有一个带有 AMD GPU 的Pod,一个带有 Intel GPU 的Pod,另一个带有来自肆意数目的其余参与者的自定义加速器Pod。它同意在互连级别完成服务器设想的通用性,就像 Meta Platforms 和 Microsoft 宣布的开放加速器模块 () 标准同意体系板上加速器插槽的通用性同样。
总而言之,UALink 的一大上风是让业内其余所有人都有机会与 NVIDIA 坚持同步。NVIDIA 当初有才能创造NVSwitch盒并将这些 NVSwitch 托盘放入NVIDIA DGX GB200 NVL72等产物中。
英特尔往年的 AI 加速器销售额达数亿美圆,这大概意味着它只卖出几万台加速器。AMD 往年将贩卖数十亿美圆的 MI300X,但这依然远不迭 NVIDIA 的 AI 范围。领有 UALink 同意像 Broadcom 如许的公司创造 UALink 交换机来赞助其余公司扩充范围,而后在多家公司的加速器上应用这些交换机咱们曾经报导了 Broadcom Atlas 交换机规划与AMD Infinity Fabric AFL Scale Up合作 NVIDIA NVLink马上出现在 PCIe Gen7 中的 Broadcom互换机上咱们在简报中被告诉,这些可能会完成 UALink 的 V1.0。当然,UALink V1.0标准还没有出台。
他们暗示,1.0版标准同意在AI容器连贯跨越1,024个加速器支撑在容器组中挂载到加速器比方GPU)的内存之间举行间接加载和存储。UALink发起人工作组曾经成立了UALink同盟,预计将在2024年第三季度正式成立。1.0版标准预计将于2024年第三季度推出,并向列入超等加速器链(UALink同盟的公司开放。
其实在已往几年,行业参与者曾经许诺过在 PCI-Express布局运转的 Compute Express Link (CXL和谈供应异样性能比方CXLmem 子集曾经供应了 CPU 和 GPU 之间的内存同享吗。
但在阐发人士看来,PCI-Express 和 CXL普遍的传输和谈。
Katti 指出,AI 加速器模块的内存域比 CPU 集群的内存域大得多咱们晓得 CPU 集群扩大局限偶然到 8 个,很少到 16计较引擎。许多人觉得,AI 加速器的 GPU 模块可扩展到数百计较引擎而且需求扩展到数千首要的是,与 CPU NUMA 集群分歧,GPU 集群(尤其是运转 AI事情负载的集群)对内存耽误的容忍度更高。
为此The Next Platform暗示咱们不要盼望看到 UALinks 将 CPU绑缚在一起,但没有来由信任将来的 CXL 链接终究不会成为 CPU同享内存规范体式格局以至大概超过分歧的架构。
这实际上是为了突破 NVLink 在互连布局内存语义方面把持。无论 Nvidia若何应用 NVLink 和 NVSwitch,它的几家合作敌手都需要为潜伏客户供应靠得住替换计划——无论他们贩卖 GPU仍是其余范例的加速器全部体系——这些潜伏客户确定但愿为 AI 服务器节点和机架式设置装备摆设供应比 Nvidia 互连更开放廉价替换计划咱们扫视全部数据中央对 AI体系需要时,有一点异常显然,那就是 AI模子连续大规模增进,”AMD 数据中央解决计划事业部总经理 Forrest Norrod 说道。“每个人都可以看到,这意味着关于进步前辈模子,许多加速器需求协同事情举行推理锻炼可以或许扩大这些加速器关于推进将来大规模体系服从功能和经济性相当首要扩大有几个分歧的方面,但 Ultra Accelerator Link 的所有支持者异常猛烈地感受到,行业需求一个能够倏地推动的开放规范,一个同意多家公司全部生态体系增添代价的开放规范而且同意立异不受任何一家公司束厄局促倏地举行。”
毫无疑难,AMD Forrest Norrod说的这家公司便是Nvidia,他们经由过程投资了InfiniBand,并创建了拥有绝对超大网络带宽的 NVSwitch 来为 GPU举行 NUMA 集群。当然,他们最后如许做的是因为 PCI-Express 交换机在总带宽方面依然无限无味的是,UALink 1.0标准将在往年第三季度实现,届时 Ultra Accelerator Consortium到场出去领有常识产权推进 UALink规范进展往年第四季度,UALink 1.1 更新宣布,这将进一步进步范围功能今朝尚不清晰 1.0 和 1.1 UALink标准支撑哪些传输或许哪些支撑 PCI-Express 或以太网传输应用 NVLink 4 端口的 NVSwitch布局理论上能够同享内存 pod超过多达 256 个 GPU,但 Nvidia贸易产物支撑 8 个 GPU。借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 理论上能够支撑超过多达 576 个 GPU 的 pod,但实际上贸易支撑仅在 DGX B200 NVL72体系至多 72 个 GPU机械供应往常,许多公司都在测验考试接纳规范 PCIe 交换机并构建基于 PCIe布局以扩展到更多加速器。业内大公司好像将此视为权宜之计相同,NVIDIA 的 NVLink 更像是业内扩大的黄金规范当初,UAlink团队正准备宣布专有 NVLink地下合作敌手。
所有这些需求时候。记者在简报会上问这是不是是一个 2026摆布实行目的。2024 年还太早纵然它被融入产物今朝也不太大概成为 2025岁首年月产物假如你看看CXL或UCIe,这些规范需求很长时候能力终究成为产物。2026 年将是一个倏地实行时候关于 AMD 和英特尔等公司来讲供应了一条复制 NVLink 和 NVSwitch性能并与其余公司同享开辟结果路子如许的公司多是最大的赢家由于它定位为非 NVIDIA体系连贯提供商,无论是用于纵向扩大仍是横向扩大。无论是 AMD仍是英特尔得胜,博通都在贩卖连贯关于超大范围企业来讲,无论谁创造端点,投资标准化布局才能异常有意义趁便说一句,在 2019-2020时期,行业思量将 CXL in-box 和Gen-Z作为扩大解决计划。许多昔时展示 Gen-Z 的人当初都在 AMD事情,就像 AMD 多年来一直在组建一支团队,他们看到并一直在起劲解决扩大挑衅但愿咱们可以或许尽快看到 UALink 投入应用。对啦,多说一句,貌似没有看到Marvell的身影?