起首咱们要懂得汽车甚至所有运算的基础流程,能够简略理解为担任下达敕令,GPU担任计较。此进程可归纳综合为:CPU依据使命范例调配使命,CPU看到大规模并行运算使命,就启动GPU,对GPU发号施令,GPU从显存或同享(车载普通是LP4或LP)读取模子全数参数,因为GPU或CPU的缓存平日惟独几MB以至是KB,以是模子参数一直都在显存或LPDDR里,每一次推理运算都要从新读出,GPU计较实现,再将给CPU。
如果有多个GPU,那末由CPU调配使命,GPU与GPU之间的数据通报仍是需求经由过程CPU直达,CPU会从此中一个GPU中先拷贝数据,再中转给其余GPU,服从异常低下,由于CPU与GPU之间普通是PCIe通信,而车载畛域为了勤俭本钱,普通是千兆以至百兆,这个传输速度异常低下,是一个紧张的瓶颈。GPU外部的带宽至少是1000GB/s的,而千兆车载以太网是0.12B/s,这就比如一个工场,天天能生产1万吨货色,此中100吨要运输,而这家工场惟独一辆每次1.25吨的车辆来装载货色,还需要一个物流中央直达,如许纵然如许的工场有10家,产能也不是10万吨,而是2.5吨。同理,纵然10个Orin用千兆以太网连贯,也不会到400TOPS。
早在20年前就认识到了这个瓶颈,逐步来解决这个题目。
2010年,英伟达推出GPU Direct shared memory手艺,经由过程缩小一次复制的步调,加快了GPU1-CPU-GPU2的数据传输速率。
2011年,英伟达又推出GPU Direct P2P手艺,间接去掉了数据在CPU直达的步调,进一步加速传输速率。
2014年,NVLink 1.0宣布并在P100 GPU之间完成,两个GPU之间有四个NVLink,每一个链路由八个信道构成,每一个信道的速率为20Gb/s,体系团体双向带宽为160GB/s(20*8*4*2)/8=160GB/s),是PCle3x16的五倍。
2016年9月,IBM宣布Power 8新版本,搭载英伟达GPU,两颗Power 8 CPU连接了4颗英伟达P100 GPU,此中数据传输的纽带从PCIe换成为了英伟达自研NVLink,带宽高达80GB/s,速率提高了5倍,功能提升了14%。
车载芯片今朝应用的顶多是第四代PCIe,实践第四代PCIe规范早在2011年就肯定了,但考虑到这大概致使第三代产物性命周期过短,是以直到2017年才正式宣布,英伟达下一代才是第五代PCIe,Orin是第四代,而且今朝市面上尚无基于PCIe的Orin体系,所有厂家都是为了勤俭本钱,应用千兆车载以太网,至多万兆,即1.25GB/s,Orin假如用PCIe交换机体系,带宽是31.5GB/s,远超车载以太网,但和NVLINK最新的1800GB/s带宽比差距极大。
严峻讲,即应用1800GB/s的NVLINK连贯,两张显卡算力也有通信消耗,也不是简略的算力翻倍,只是消耗很低罢了。而车载畛域的千兆以太网,笔者觉得消耗至多也有80%。海内也有厂家开端思量用PCIe交换机连贯两个Orin,幸亏第四代PCIe交换机的研发本钱早就被摊派终了了,今朝车载PCIe交换机惟独Microchip一家供应,价钱也不算高,无非比车载仍是要贵几十美圆。
Orin当然没有NVLink接口,连自力的显存也没有。
NVLink是全封闭生态,不像PCIe需求挤牙膏式进展,基本上每两年进级一次,相对于PCIe,NVLINK遥遥当先,2017年的NVLink比2025年的PCIe都强很多。然而,也不克不及全怪PCIe太慢,PCIe要思量本钱,也思量应用场所,而NVLink只需要思量AI计较场所。
从第二代NVLink开端,英伟达开发了NVLink Switch芯片,这让英伟达垄断了,单芯片或者说单卡。实践,英伟达并不比或英特尔强,比方AMD的MI300X比英伟达的H100功能凌驾不少,价钱也低不少,之所以卖无非H100,CUDA并非是关头要素。
从上图能够看出,PyTorch 1.8起,就原生支撑AMD的ROCm,能够方便地在原生环境下运转,不用去设置Docker了。
关头便是NVLink与NVLink Switch。
NVLink构成局域网连贯多张H100显卡组成一个节点,再用NVLink Switch将这些连接成更大的计较范围,DGX H100今朝最高双向带宽高达3.6TB/s。
在更高层级上,英伟达也有宽阔的护城河,英伟达2019年3月创议对Mellanox的收买 ,而且于2020年4月实现收买 ,经由此次收买获取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互联的才能。
英伟达便是一个三头怪兽,CUDA和GPU这两个头还好对于,网络这个头,差距太大。
与英伟达的NVLink类似,AMD则推出了其Infinity Fabric手艺,支撑芯片间、芯片对芯片,以及马上推出的节点对节点的数据传输,无非其最后是应答CPU到GPU的对立存储的,而非多张显卡通信,是以它基础沿用了PCIe规范。Infinity Fabric是AMD在其「Zen」微架构中引入的关头特点,旨在进步团体体系效力,特别是在多焦点和环境中。
Infinity Fabric由两部分构成:数据布线(Data Fabric)和操纵布线(Control Fabric)。数据布线用于处理器外部和处理器之间的数据传输,而操纵布线则担任处理器的功耗、频次和安全性等方面的治理。
Infinity Fabric的首要特色包孕:
高效率:Infinity Fabric设想用于供应高效率的数据传输,支撑多个装配之间的高速通信;
模块化:Infinity Fabric支撑AMD的小芯片(chiplet)架构,同意分歧性能的芯片模块透过高速互连举行组合;
内存同享:Infinity Fabric支撑CPU和GPU之间的内存同享,有助于进步异构运算的服从;
扩展性:Infinity Fabric的设想同意它跟着手艺前进和需要生长而扩大。
AMD最新的AI加速器Instinct MI300X 平台,就经由过程第四代AMD Infinity Fabric贯穿连接将8 个完整连贯的MI300X GPU 模块整合到业界规范OCP 设想中,为低耽误AI 处置供应高达1.5TB HBM3容量。第四代Infinity Fabric支撑每通道高达32Gbps,每贯穿连接发生128GB/s 的双向带宽。但仅限于8个,再多就需要到场内部互联。
不同于NVLink仅限于外部应用,AMD已开端向新分工火伴开放其Infinity Fabric 生态体系。在2023年年末AMD MI3000的宣布会上,Broadcom发布其下一代PCIe交换器将支撑XGMI/Infinity Fabric。不但云云,AMD还但愿Arista、、Cisco等分工火伴能推出适用于Infinity Fabric 等产物的交换机,可以或许便利MI3000在繁多体系外完成芯片间通信。这类似于英伟达的NVSwitch。
英特尔因此太网络的松软拥护者,没办法,英特尔在计较集群网络上简直没有结构,只能依托最传统的以太网络。英特尔的用于的Gaudi AI芯片则始终相沿传统的以太网络互联手艺。Gaudi 2 每一个芯片使用了24 个100Gb以太网络链接;Gaudi 3也使用了24 个200 Gbps 以太网络R NIC,但它们将这些贯穿连接的带宽增加了一倍,达到200Gb/秒,这与NVLINK还相差不少。
2024年3月,AMD、博通、思科、谷歌、惠普、英特尔、Meta和在内的八家公司宣布,为数据中央的网络制订了新的互联手艺UALink(Ultra Accelerator Link)。通过为AI加速器之间的通讯创建一个开放规范,以挑衅英伟达在AI加速器一家独大的位置。据新闻表露,UALink发起的第一个规范版本UALink 1.0,将连贯多达1024个GPU AI加速器,构成一个计较“集群”,配合实现大规模计较使命。依据UALink推行组的说法,基于包孕AMD的Infinity Fabric在内的“开放规范”,UALink 1.0将同意AI加速器所附带的内存之间的间接加载和存储,而且与现有互连标准相比,整体大将进步速率,同时下降数据传输耽误。
实践纵然算力数值沟通,实践计较也会是天壤之别,英伟达A100的INT8算力是1248TOPS海内售价20-25万人民币,英伟达RTX4090的INT8算力是1320TOPS,售价是1.3万人民币二者明显差距伟大,存储带宽首要,车载畛域远比服务器畛域庞杂,它是同享存储,至于带宽,很少研讨过。
NVLink继续演进也证明了显卡算力不会简略叠加,要不然就没必要继续进级NVLink,至于带宽不迭第五代NVLink万分之一的车载以太网,两个Orin叠加效果可想而知。
免责解释:本文观念和数据仅供参考实践情形大概存在误差。本文组成投资倡议,文中所有观念、数据仅代表笔者态度,不具有任何指示、投资决议看法。