汽车与芯片算力杂谈参考文献链接 https://mp.weixin.qq.com/s/FO4gQNYCCzitVXoTaDILlw https://mp.weixin.qq.com/s/L4u-ffG-jEDNKC2q-fr9bw 中国车，乱拳打死老师傅？华丽转身的中国汽车在2021年之前的十年里，中国汽车的出口量一直徘徊在100万辆左右。2021年，中国汽车出口量飙升100% 至201.5万辆，首次超过200万辆，已大幅超过韩国(152万辆)，仅次于日本(382万辆)和德国(230万辆)。是的，中国现在是世界上第三大汽车出口国，去年的高出口增长趋势仍在继续。在这里插入图片描述

海关总署发布的数据显示，今年一季度，中国汽车整车出口67.6万辆同比增长57万辆.8%；整车出口额为117.同比增长87亿美元.9%。今年1-5月，中国汽车出口108万辆，同比增长43%。将数据与德国和日本进行比较：791-4月德国出口汽车.5万辆，日本112.6万辆，如果考虑到欧洲汽车市场供应不足，可以说，根据这一市场趋势，中国今年可能会超过德国，跃居世界第二。从具体的出口市场来看，亚洲仍然是中国最大的汽车出口市场。今年第一季度，中国向亚洲出口了19辆汽车.同比增长585万辆.2%，约占30%。此外，欧洲汽车市场向低碳转型的加速也为中国汽车公司出海提供了极好的机会，中国对欧洲市场的出口增长非常明显。 2021年，欧洲市场在中国汽车出口中增长最快，增长204%；今年第一季度，中国向欧洲出口了17辆车.82万辆同比增长139万辆.9%。众所周知，欧洲汽车市场一直是一个硬骨头。消费者对欧洲本土汽车品牌的粘性很高。在过去的几十年里，很少有外国品牌能够真正在欧洲站稳脚跟。因此，中国在欧洲市场的销量大幅增长也是一个亮点。从中国汽车的主要出口国来看。1月至4月，美国、墨西哥、日本、比利时、俄罗斯、韩国、德国、英国、澳大利亚和沙特阿拉伯是中国十大汽车出口国之一。可以看出，许多人认为，曾经廉价和低质量的中国汽车逐渐显示出加入欧洲和美国市场的实力。美国、日本和德国是中国汽车商品的主要出口国，这在一定程度上表明中国汽车正在被国际市场广泛接受和认可。另外，在这场汽车出口的大潮中，自主品牌车企的成绩也很亮眼。根据乘联会的数据，5月份中国自主品牌出口达到14.1万辆，同比增长77%；合资企业和豪华品牌出口4000辆.2万辆，同比增长76%。其中，上汽集团是中国最大的支柱，连续六年成为中国最大的出口汽车公司。 2021年，上汽集团在海外市场销售了69辆新车.7万辆，占去年中国汽车出口量的三分之一，也就是说，每出口三辆中国品牌汽车一辆来自上汽集团。此外，奇瑞、长城、吉利、长安等中国汽车公司也贡献了稳定的出口订单。汽车制造业缓慢崛起上述数据确实令人兴奋，因为汽车工业在国家整体竞争力方面非常重要。在历史上，在美国、德国、意大利、法国、日本和韩国经济腾飞之前，汽车工业的快速增长都是主导地位。汽车作为制造业中的制造业，拥有庞大的产业链，是一个技术密集型产业。汽车有数万个部件，涉及钢铁、机械、化工、电子、橡胶等行业。几乎所有的制造业部门都需要协调大量的资本和技术，完成多行业的跨区域合作。因此，汽车产业的繁荣可以带动多个相关产业的发展，容纳足够的就业人口，规模效应和乘数效应非常显著。同时，汽车作为一种大规模的商业产品，最终面向民用市场，这意味着汽车公司在生产经营中，不仅要确保数万部件在数十年的可靠运行中，而且要控制生产维护成本在普通人可以接受的价格范围内，难度可想而知。因此，在某种程度上，一个国家汽车工业的发展代表了该国的综合工业水平。因为汽车工业的实力意味着该国在主要工业部门的技术和人才积累以及相关资源的合作与整合方面达到了很高的水平。自1885年问世以来，世界上第一辆汽车已有100多年的历史。梅赛德斯-奔驰、大众、雷诺、雪铁龙、日产、福特等知名汽车公司在第二次世界大战甚至第一次世界大战前都发展起来；德国作为汽车的发源地，其汽车工业的发展贯穿了整个汽车发展历史。直到20世纪80年代，中国只生产上海品牌汽车和红旗汽车，年产量不超过5000辆，汽车厂年产量至少达到10万-20万辆，是大规模生产，否则没有收入。因此，后来，中国政府和企业走上了外商直接投资和大规模技术引进的道路，即以市场为技术——所有进入中国的跨国汽车制造商只能与不超过两家国有企业合资生产，才能在国内市场销售，纯进口汽车或零部件将征收高达100%的关税。此外，当时中国汽车消费市场正处于快速增长阶段，汽车市场已成为广阔的蓝海，对外国汽车企业具有很强的吸引力。因此，这种合资模式在一定程度上加快了外国企业向中国转让产品技术的速度，使当地汽车企业能够快速聚集生产要素。随着国内汽车市场的成熟，中国开始强调提高大型汽车企业的自主研发能力，自主品牌也逐步发展。

因此，在过去两年中，许多人哀叹国内汽车似乎突然崛起的背后，事实上，这是中国政府和汽车公司在过去70年中不断追求汽车制造业。虽然前景不能盲目乐观，但现在确实取得了成果。

目前，在2021年乘用车厂商批发销量排名前十的乘联会统计中，自主品牌占据了前十五名，而自主品牌占据了前十五名。从整体市场份额来看，2021年，中国自主车企的市场份额为44%，也是近三年来的新高。疫情催化和换道超车回到本文开头的数据，为什么2021年中国汽车出口翻了一番？翻倍并不容易。事实上，中国汽车出口的井喷有点突兀，因为在过去很长一段时间里，中国汽车公司的出口量一直保持在100万辆左右，这显然是一个停滞期。至于2021年汽车出口的突然爆发，部分是受到了偶然因素——疫情的影响。汽车生产涉及数万个零部件，需要产业链的高度协调。然而，在疫情的影响下，许多汽车公司的供应链受到冲击，汽车生产被迫停止。我国疫情防控措施较好，整车及零部件产业链生产能力迅速恢复，动态复工复产韧性强。因此，当丰田、本田、福特等海外厂商在2021年被迫暂停海外车辆生产时，中国车企的生产相对正常，自然受益。但总的来说，疫情的偶然因素主要起着催化剂的作用，或者说疫情并没有创造新的增长，而是放大了中国产业链的竞争优势。目前，中国是联合国工业分类中唯一拥有全部工业产业的国家，拥有世界上规模最大、的国家。产业链的高效运行需要仓储、运输、信息等因素的支持，我国在物流系统、信息技术、大数据技术等方面也具有综合优势，可以保证产业链的顺利运行。今年6月，中国宏观经济论坛(CMF)在季度论坛上，复旦大学特聘教授黄奇帆指出，从应对疫情的角度来看，产业链相对完整、产业链自成体系的地方，比两端在外、高度依赖国际供应链的地方要好。例如，在过去两三年的疫情期间，广州、深圳、上海、苏州、重庆、成都等城市拥有各种汽车电子制造业的产业集群，产业链相对完整。因此，这些城市的复工复产和各种竞争挑战相对成功。同时，在汽车产品实力方面，近年来，中国品牌汽车在外观、质量、智能网络配置等方面都有了很大的改进。与合资品牌产品相比，一些先进的配置甚至超过了合资产品，在海外具有一定的竞争力。所以，在全球疫情肆虐、海外市场缺芯、欧美车企汽车产量缩减、全球汽车市场供应不足的背景下，中国凭借较好的疫情防控、完备的产业链基础和日渐增强的汽车产品力，顺理成章地实现了汽车出口的巨大增量。在此基础上，更重要的原因之一是中国汽车工业有新能源汽车的增长曲线。在传统汽车中，三件——发动机、变速箱和底盘，与汽车动力性能、控制舒适性、乘坐舒适性等体验有关，是汽车产品实力的核心方面。外国品牌在这些核心技术领域积累了深厚的积累，并建立了较高的竞争壁垒。虽然中国汽车公司已经开发了很多年，但它一直处于追赶状态。甚至可以说，如果外国汽车公司不犯错误，他们可能永远无法赶上。然而，在新能源汽车时代，汽车的核心三大部件已经成为三电系统-电池、电机和电子控制。这意味着传统汽车公司过去在新能源汽车轨道上积累的优势并不起作用。相反，中国汽车公司可以轻装上阵，而是船难转头。

早在2009年，当时科技部部长万刚就提出，中国汽车将在新能源领域实现弯道超车，但由于新能源汽车没有爆炸性增长，弯道超车曾被视为伪命题。然而，市场的转机从去年开始出现。 2021年，中国新能源汽车零售销量达到298.同比增长169万辆.1%。今年5月，中国新能源汽车国内零售渗透率达到26.6%，较2021年5月11.6%的渗透率提高了15个百分点。其中，自主品牌新能源汽车的渗透率已达到51.8%；豪华车新能源车渗透率9.2%；新能源汽车在主流合资品牌中的渗透率仅为4%。经过近10年的发展，中国拥有新能源汽车产业链从上游正极、负极、电解质、隔膜到中游电池、下游车辆和储能装置的完整布局。随着上游零部件本地化和产业集群优势的出现，中国已占全球新能源汽车总产量的60%，并成功实现了出海。2021年出口电动汽车近50万辆，出口同款车型毛利率较高。可以说，在新能源汽车领域，中国逐渐在全球产业链中占据了有利的竞争定位，正在实现弯道超车。自主品牌向上之路新能源汽车的兴起在一定程度上确实让全球汽车品牌走上了同一条起跑线，这可以说是中国自主汽车品牌百年一遇影响高端品牌的好机会。在传统燃油汽车领域，中国汽车在产品性价比方面也有很多不错的车型，但如果上升到高端品牌和高端车型，情况就会变得尴尬。按照乘联的定义，指导价在30万元以上的是高端车，也就是大家普遍认为的豪车。此前，许多人开玩笑说：20万只是国内汽车公司的诅咒！在传统汽车的高端市场上，国内汽车基本上没有份额。除了主要依靠政府采购的红旗外，高端汽车都是外部的品牌。的确，根据乘联会发布的数据，2021年度，中国高端轿车零售销量前十分别为宝马5系、宝马3系、奥迪A6、奔驰E级、奔驰C级、奥迪A4、沃尔沃S90、红旗H9、凯迪拉克CT6、辉昂。在榜单一梯队（销量超过10万）里，仍然是清一色的BBA：宝马、奔驰和奥迪各有两个车型，全年销量均超过12万辆。其中，宝马5系累计销量达17.2万辆，同比增长8.3%，排名第一；宝马3系排第二，累计销量17.0万辆，同比增长12.1%。显然，经过几十年甚至上百年的积累和运营，BBA作为中国市场中份额最大、高端形象塑造最成功的品牌，已经让市场相信，BBA就是民用天花板，是燃油车产品里最优秀的选择。而现在，换到新能源汽车领域，一个趋势是，中高端新能源市场的国产品牌越来越多，国产品牌正在挑战BBA。相比结构复杂的传统燃油车，新能源车降低了造车门槛，形成了“百花齐放”之势。不仅核心三大件变了，而且汽车正在成为软件定义的智能移动终端，即向着智能化的方向发展。在新能源汽车制造方面，国内的电机电控、动力电池、整车控制器等关键零部件研发生产到整车设计制造，已经具备了一定的产业基础和优势。

在智能化方面，一方面是政策持续力挺，包括自动驾驶试点政策等，另一方面，中国的5G、传感器等车内外技术也日趋成熟，国内汽车行业正迎来智能化的拐点。电动化和智能化是未来中国品牌向上突围的两大新赛道。现在很多消费者都有这样的感受，如果想要购买高端新能源车，考虑的品牌里，除了特斯拉，其他参考选项大多都是国产车，如比亚迪、蔚来、小鹏等。造车新势力们在科技感、智能化方面，有着更为大胆和前卫的尝试和亮点，也颇受消费者青睐。 BBA的新能源车型目前还带着浓浓的“油改电”意味，只是改了动力，车内的智能化却并没有跟上，“与不少国产的新能源车一比，有点像制作精良的非智能手机与苹果手机”。凭借在新能源和智能化上的持续发力，国产品牌的新能源车有了更多将售价提升到30万元，甚至是50万元以上的底气。以蔚来为例，旗下ES6、ES8、EC6、ET7四款车型起售价均在40万元以上，高配售价突破50万元，在如此高昂售价的基础上，蔚来去年的年销量达到了91429辆，这说明市场是认这个价格的。此外，理想汽车此前推出的理想ONE售价在30万元以上，这一款车型去年交付了90491辆；小鹏汽车也凭借P7车型的成功，去年首次成为新势力年度销冠，交付98155辆。对比之下，BBA三家的纯电动车型去年在国内市场的销量总和仅为36266辆。可以预见的是，在对智能化与电动化的持续迈进中，中国汽车品牌的科技实力与创新能力正在不断提高，未来打造出国际化的大品牌，指日可待。算力猛兽：浪潮NF5468A5 GPU服务器深度测评 NF5468A5是浪潮推出的一款面向AI训练和AI推理、视频编解码等多种应用场景的全能型GPU服务器，在4U空间内搭载2颗AMD EPYC处理器，支持多达8张双宽加速卡。浪潮官网显示，这款产品已经支持NVIDIA、AMD、Intel、寒武纪、燧原等多家业界主流AI加速卡。本次拿到的样机采用如下配置：

接下来，笔者将从系统解析、性能测试这两个方面对浪潮NF5468A5服务器进行测评。 1.NF5468A5系统解析1.1 整体系统设计浪潮NF5468M5 AI服务器采用了4U机架式机箱，高x宽x深为175mm x 478mm x 830mm。整体风格简约、硬朗，不论做工、还是用料、细节，均彰显出大厂品质。前面板沿用浪潮一贯稳重的黑色，六边形的格栅结构由金属制成，可以将风扇高速旋转产生的湍流风切割成平稳的平流风，从而更平稳的吹向服务器内部。前面板右上角，电源键下方是ID、Reset按键和系统状态指示灯，前面板左上角则是VGA、两个USB 3.0接口和管理接口。前面版的丰富接口，充分考虑了运维人员的工作场景，十分便捷。浪潮NF5468A5前视图从后窗来看，NF5468A5在4U空间内提供了8个全高全长双宽PCIe x16的物理插槽，支持最新PCIe Gen4,双向通信带宽高达64GB/s,相比PCIe Gen3,功耗不变,但通信性能提升1倍。在此基础上产品还提供了3个全高全长单宽x16物理槽位，可支持25G/100G/200G双口光纤，或者千兆/万兆RJ45网卡以及8/16端口12Gb/s RAID卡，可满足客户对网络及存储的要求。同时可支持1个OCP 3.0网卡专用插槽，支持热插拔，将网卡更换时间从20分钟缩短到1分钟，能够大幅提高运维效率。 NF5468A5支持4个电源模组，可以提供1600W~3000W功率的80 PLUS铂金电源模块，效率高达94%,可选3+1冗余或者2+2冗余，多种组合的冗余电源设计，充分考虑了不同配置AI服务器的负载情况，保障稳定性。

浪潮NF5468A5后视图整个服务器采用非常紧凑的布局设计，总共分成四个功能区域，从前往后依次是：磁盘存储区、系统散热区、处理器+内存区、GPU+IO扩展区。浪潮NF5468A5内部俯视图下面先看下CPU和内存。这台样机搭配了2颗AMD EPYC 7543处理器，核心数达到了32核心64线程，基准主频2.8GHz，最大加速时钟频率3.7GHz，L3 Cache 256MB，功耗225W。另外，浪潮官网介绍NF5468A5可支持2颗AMD基于"Zen3"微架构内核的EPYC Milan-X处理器，最高128个核心256线程、1536MB L3 Cache 以及18 GT/s XGMI互连链路，CPU TDP最大支持280W。样机配置了16根32G DDR4内存，同时可以看到服务器主板整齐排布了32个DDR4内存插槽，最大容量可达8TB，内存总带宽750GB/s，支持RDIMM/LRDIMM等类型的内存条。NF5468A5强劲的处理器性能、巨大的内存容量和带宽，特别适合AI计算、云计算、HPC以及企业各类业务的工作负载。

浪潮NF5468A5的CPU散热器和内存条笔者手上的这台NF5468A5，最吸引眼球的是本次测试样机搭配了8颗NVIDIA A100 40G加速卡，从京东网上的报价看，8张A100的价格已经与一款中高端轿车相当，这究竟是一款什么样的AI服务器，笔者将带大家一探究竟。来重点看一下NF5468A5的GPU模组。样机搭配了8张NVIDIA A100 PCIE 40GB GPU加速卡，由于每张卡功耗高达250W，服务器也给GPU板卡配置了单独供电线，保证GPU卡的稳定工作。为了满足PCIE卡的高功率运行，看到NF5468A5在GPU板上专门设计了4个用于大电流通流的bus bar，据浪潮的工程师介绍，bus bar的通流能力可以达到2880W，这对于各类PCIE加速卡的支持是非常强劲的。

浪潮NF5468A5支持8张NVIDIA A100 PCIE 40GB GPU NF5468A5提供了对丰富外插卡的支持，针对A100这种全高全长的卡配置了专用支架，搭配尾部锁片进行固定，这样能增强产品在运输过程中震动、跌落情况下的可靠性。翻开尾部锁片，旋转蓝色旋钮，就能非常顺利的取下GPU进行更换，这种针对PCIE卡免工具的操作非常人性化。

浪潮NF5468A5免工具更换PCIE加速卡 1.2 系统散热设计从浪潮官网产品介绍中看到NF5468A5可以支持2颗280W CPU+8颗300W的GPU，在177mm的空间内浪潮究竟是如何实现的？笔者找浪潮工程师拿到了系统风流图，从中可以看出，系统整体风道采用前进后出的方式，散热风流主要从前面板的硬盘及下方开孔处进入系统。风流经系统风扇后通过导风罩的分配，一部分进入下层前排CPU和内存通道，一部分继续往后吹；经过CPU和内存后的风及未被预热的风大部分流向后方上面3U空间的GPU，小部分流向下面1U空间；最后经后面板流出系统。如此巧妙的风道设计和精准的风流控制，足见浪潮作为全球AI领导厂商深厚的设计功底。系统分离式风流设计这款服务器将整机柜产品中“风扇墙”的设计理念搬到了4U机箱中，“风扇墙”一共由6组可以单独维护的子风扇模组组成，风扇后部搭配了流线型设计的导风罩，覆盖了从风扇到GPU中间的区域，但整个导风罩并没有完全挡住风扇的出风区域，结合上面系统风流图也证明是为实现CPU和GPU独立风道的引流设计，避免风流的串扰，无论多“强悍”的CPU和GPU都可以驯服。 NF5468A5中置风扇墙和导流设计 1.3 架构设计笔者查找了海外网站相关浪潮产品的介绍资料，找到一张产品的拓扑图，发现有别于传统CPU-PCIE Switch-GPU的设计，浪潮产品采用CPU-GPU直连方式。跟浪潮工程师确认，送测的NF5468A5也采用类似设计。工程师介绍，由于省去了PCIE Switch，2颗CPU与GPU的通讯延迟能降低200~300ns，同时GPU到CPU的通信带宽可以达到256GB/s，较GPU通过PCIE Switch只有1条与CPU PCIE通路比，带宽提升4倍，这种极致的互联架构设计，有助于提升GPU与CPU间数据通信的带宽，有效降低数据的处理延迟。

NF5468A5性能测评2.1 HPL测试样机搭配2颗AMD EPYC 7543处理器，这款处理器是32 核 64 线程，基准主频2.8GHz，L3 Cache 256MB，最大加速时钟频率最高可达3.7GHz，功耗225W。为了能够了解CPU实际性能，下面将采用HPL基准软件进行测试。在计算机基准测试软件中，HPL是应用最广泛的基准测试程序之一。通过使用高斯消元法对稠密线性方程组进行求解，HPL可以准确测试系统浮点计算指标。在每年全球超级计算机排名TOP500中，HPL测试性能是唯一的评价标准。由于笔者拿到的设备是一台未预装任何软件的裸金属服务器，为了进行相关测试，首先在上面安装了Ubuntu20.04操作系统。然后用HPL软件测试了系统的浮点运行能力。通过如下命令，将测试进程和CCD进行绑定。

mpi_options=“–mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader”

mpi_options=“$mpi_options --map-by ppr:1:l3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores”

mpirun $mpi_options -app ./appfile_ccx

在运行之前，还需要设置核心运行在最高频率，清除系统缓存，并开启大页内存等设置，保证获得当前平台最高性能。

echo 3 > /proc/sys/vm/drop_caches echo 1 > /proc/sys/vm/compact_memory echo 0 > /proc/sys/kernel/numa_balancing echo ‘always‘ > /sys/kernel/mm/transparent_hugepage/enabled echo ‘always‘ > /sys/kernel/mm/transparent_hugepage/defragsudo cpupower frequency-set -g performance

最终测试浮点计算速度为2.69 TFLOPS，根据当前AMD平台理论浮点计算速度，计算效率达到93.74%。

处理器浮点计算测试结果 2.2 内存带宽测试用业界主流的测试软件STREAM对NF5468A5的内存带宽进行了测试，测试参数如下：

Thread Binding Options for AMD EPYC 7742/7763 Processor$ export GOMP_CPU_AFFINITY=0-64:8$ export OMP_NUM_THREADS=8

在运行前，清除系统缓存并且开启透明大页内存设置等，设置参数如下：

$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/enabled$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/defrag$ echo 3 > /proc/sys/vm/drop_caches$ echo 1 > /proc/sys/kernel/numa_balancing

通过以上编译和运行过程中优化，STREAM测试结果为373 GB/s，根据当前平台理论内存带宽409.6 GB/s,实测内存带宽效率达到91.1%。应该说，这个效率非常高了。内存带宽测试结果 2.3 训练性能测试下面来测试NF5468A5的AI训练性能。样机配置8张NVIDIA A100 PCIE 40GB GPU，这款GPU采用Ampere架构，基于7nm制造工艺，包含了超过540亿个晶体管，拥有6912个CUDA核心，搭载了40GB HBM2内存，具备1.6TB/s的内存带宽，FP64性能9.7 TFLOPS，FP32性能19.5 TFLOPS，FP16性能312 TFLOPS。笔者从github网站上的公共仓库https://github.com/mlcommons/training_results_v1.0中下载了MLPerf Training V1.0代码，并使用这套代码按照以下测试步骤在NF5468A5上训练ResNet50模型。MLPerf是一套衡量机器学习系统性能的权威标准，将在标准目标下训练或推理机器学习模型的时间，作为一套系统性能的测量标准。MLPerf由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、斯坦福、哈佛大学等单位共同成立，是国际上最有影响力的人工智能基准测试之一。ResNet50是计算机视觉领域中最经典的图像分类模型，广泛应用于图像识别、自动驾驶等场景。 MLPerf代码提供了容器配置文件，可以很方便的通过配置文件在自己的服务器设备上创建镜像环境,镜像中包含cuda、cudnn、nccl、mxnet等上层组件。但是在运行容器之前，还需要在Host OS中安装NVIDIA GPU Driver、docker、nvidia-docker这些基础软件。首先，笔者参考https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html#runfile 教程在Ubuntu20.04操作系统中下载并安装了R470.82.01版本的驱动；然后按照https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 教程安装docker和nvidia-docker。通过以下命令构建容器镜像：

$ cd ~/training_results_v1.0/NVIDIA/benchmarks/resnet/implementations /mxnet$ docker build -t mlperf1.0-nvidia:image_classification .

在测试之前，通过在nf5468a5_cxx.sh文中添加以下内容绑定核心与进程，最大化的利用系统中的计算资源，达到良好的负载均衡，保证获得最优的性能结果。

bind_cpu_cores=([0]=“48-63,176-191” [1]=“32-47,160-175” [2]=“16-31,144-159” [3]=“0-15,128-143” [4]=“112-127,240-254” [5]=“96-111,224-239” [6]=“80-95,208-223” [7]=“64-79,192-207”)bind_mem=([0]=“3” [1]=“2” [2]=“1” [3]=“0” [4]=“7” [5]=“6” [6]=“5” [7]=“4”)

测试环境准备完成，执行以下指令开始测试：

激活环境变量：$ source config_NF5468A5.sh$ export CONT=mlperf1.0-nvidia:image_classification $ export DATADIR=/home/data/mxnet_imagenet/ $ export LOGDIR=/home/resnet50/执行测试脚本：$ ./run_with_docker.sh ResNet50训练测试结果测试结果为21486 images/sec，也就是35分钟即可完成ResNet50模型的训练。参考最近几期MLPerf训练榜单，搭载8张NVIDIA A100 40G GPU卡的服务器的最好成绩是36.2分钟。可以说，在同等GPU配置的服务器中，浪潮 NF5468A5的ResNet50训练性能是最好的。 2.4 推理性能测试笔者也测试在目前推理场景中热度最高的NVIDIA Tesla T4，这款精致的GPU卡只有75W，采用Turing架构, 在半高卡的尺寸内集成320个Turing Tensor Core和2560个Turing CUDA Core，配备16GB GDDR6，支持FP32/FP16/INT8/INT4等多种精度的运算，FP16的峰值性能为65T，INT8为130T，INT4为260T。 NVIDIA Tesla T4 GPU 推理性能测试同样使用了MLPerf测试工具，本次测试是基于MLPerf Inference V1.0.复用了训练测试时使用的OS、docker、nvidia-docker等基础软件环境。在NF5468A5搭载1张NVIDIA T4 GPU，使用github网站上的公开代码https://github.com/mlcommons/inference_results_v1.0，按照如下步骤测试了ResNet50模型的推理性能：同训练时一样，首先要构建容器镜像：

unzip mlperf-inference-release.zip# cd /mlperf-inference-release/closed/Inspur# export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/# make prebuild(备注：prebuild后会自动进入容器实例)

然后执行以下指令开始测试：

sudo CUDA_VISIBLE_DEVICES=0 make run RUN_ARGS=“–benchmark=resnet50 --scenarios=Offline --config_ver=default --test_mode=PerformanceOnly --fast”

在图像分类应用场景中，使用ImageNet数据集，ResNet50测试结果是每秒处理5671.9 张图片。了解到NVIDIA T4的ResNet50推理性能为每秒5000张图片左右。应该说，在NF5468A5上测得的T4推理性能非常好了。 ResNet50推理测试结果笔者也拿到了寒武纪MLU270-S4推理加速卡。MLU270-S4采用TSMC 16nm工艺制造，集成16GB DDR4 内存，支持ECC，同时兼容INT4和INT16运算，理论峰值分别达到256TOPS和64TOPS。发现NF5468A5对寒武纪的板卡也做了很好的兼容性适配，BMC可以显示MLU270-S4的资产信息，风扇转速也根据MLU270-S4的功耗进行了调整，相比A100，能够明显感觉到风扇转速主动降低了。不得不说，浪潮服务器的散热控制做得很精细。寒武纪MLU270-S4加速卡在NF5468A5上插了1张MLU270-S4，测试了Caffe框架下的ResNet18、PyTorch框架下的GoogleNet以及TensorFlow下的ResNet101v1.5、VGG16和InceptionV3这几个模型的推理性能，在使用int8精度时，计算性能分别为每秒7440、5800、2400、1400和1000张。笔者分析，浪潮NF5468A5在训练和推理测试中能取得这么好的成绩主要有三个原因：第一，ResNet50模型从算法上还是需要CPU进行一定的图像预取和处理操作，本次送测的AMD 7543具备32核心2.8GHz主频，有助于图像在CPU端的预处理工作；第二，NF5468A5采用CPU和GPU直连设计，有效降低数据的处理延迟，同时单个CPU与GPU通信带宽高达128GB/s；第三，NF5468A5可以支持NVME SSD作为数据盘，通过将多颗NVME SDD数据盘组建RAID，可以极大的提升磁盘IO能力，在AI这种需要频繁读取数据的场景中，能够非常有效的避免因为IO短板带来的性能瓶颈。 2.5 视频编解码性能测试笔者在NF5468A5服务器上也评测了浪潮自研的M10A加速卡。据浪潮官网介绍，M10A是一款面向AI场景优化设计的VPU(Video Processing Unit), VPU是一种全新的视频处理核心引擎，将视频处理功能做成ASIC芯片，具有硬件编码、硬件解码、硬件转码等视频加速功能，可以减少服务器在视频处理业务上的计算性能消耗和降低视频传输对网络带宽的需求。 M10A在8W功耗下可以提供16路1080P30视频的加速能力，相当于每路1080P视频加速仅需0.5W。M10A针对H.265视频格式压缩算法进行了特殊优化，实测数据表明M10A的H.265编码效果可以使得网络带宽利用率翻倍，同时计算CPU负荷最低可降至2%，适用于直播、短视频、云游戏、视频会议等场景。浪潮M10加速卡在FFMPEG视频框架下，直接用软件SDK中的demo脚本，测试了M10A在不同视频分辨率下的性能数据，如下是16路1080P全高清视频实时转码的性能测试情况：

在测试的过程中，发现M10A VPU芯片内部是“多核”结构，这将进一步降低视频处理延迟，提高多路视频转码时的性能稳定性。从测试结果看到，M10A进行16路1080P全高清视频转码时，每路视频转码性能都能达到33fps，达到了浪潮官方宣传的性能。 M10A视频转码性能测试结果另外，还测试了4K超高清和720P高清分辨率下的M10A的性能数据，分别可以达到4K 120fps和720P 960fps，解码、编码和转码的性能都是一致的。在跟视频行业技术大咖的交流中了解到，一张M10A的视频处理能力相当于一台双路服务器的性能，M10A具有高性能、低功耗的优点，这对视频行业来说是一个非常高性价比的解决方案。 2.6 HASH性能测试除了前面讲到的几张加速卡，笔者也尝试了其他板卡，比如主流的消费级显卡RTX3090等，发现NF5468A5都做了很好的适配工作。 RTX3090采用第2代NVIDIA RTX架构-NVIDIA Ampere架构，采用8纳米工艺，拥有10496个CUDA核心，搭载了24 GB GDDR6X内存，384bit位宽。

RTX3090显卡下面，来看看浪潮5468A5搭载RTX3090显卡在区块链场景的性能。基于T-Rex这个知名的应用软件，笔者对业界主流的哈希算法进行了性能测试。T-Rex不仅支持区块链场景中最常用的ETHASH算法，也支持其他诸如BLAKE3、MTP等哈希算法。 ETHASH算法性能测试过程针对每种HASH算法，使用了t-rex软件的benchmark模型，在单个3090显卡上进行测试，每次测试持续10分钟时间，并记录了最终的性能数据，如下表所示。浪潮NF5468A5+单卡RTX3090 HASH算法测试

其中ETHASH算法的单卡性能达到了108MH/s。这在很大程度上得益于NF5468A5优秀的散热设计。RTX3090的功耗高达350W，在区块链场景，显卡通常是7*24小时运行，因此对散热的要求非常高。笔者监控了整个测试过程中的GPU功耗和温度情况，发现在长达半天的测试过程中，虽然GPU功耗长期维持在330~340W之间，但是GPU的温度一直维持在60℃左右，甚至在多卡同时运行时，GPU的温度也能保持在60℃左右，可以看出NF5468A5的散热设计做得相当不错。 3. NF5468A5服务器测评总结通过对产品外观和内部设计的评测，看到，浪潮NF5468A5在产品设计上，存储、计算、风扇、GPU扩展等各模块简洁明朗，尤其是巧妙的分区散热设计有效实现CPU与GPU模组的分流，丰富的存储+IO扩展性，同时人性化的设计以扎实的做工，也彰显出浪潮对产品细节的严谨和大厂雄厚的设计实力。在整体实际性能的综合测试，得益于浪潮高效的产品架构，最大发挥CPU与GPU之间的通讯效能，处理器计算效率达到93.74%，实测内存带宽373 GB/s，搭配8张A100训练ResNet50模型得到每秒处理21486张图片的惊人算力，在ImageNet数据集下进行ResNet50推理测试展现超出T4标称13%的图片处理能力，这台算力猛兽全方位的表现，相信给笔者和大家都留下了深刻的印象。此外，ETHASH算法单卡性能突破100MH/s；很好地支持寒武纪国产推理卡，轻松实现每秒处理图片超7000张；搭载视频转码卡M10A展示了480fps 1080P视频转码性能。浪潮NF5468A5还有很多意想不到的潜能，笔者期待进一步的发掘，给大家带来更精彩的评测。

参考文献链接 https://mp.weixin.qq.com/s/FO4gQNYCCzitVXoTaDILlw https://mp.weixin.qq.com/s/L4u-ffG-jEDNKC2q-fr9bw

资讯详情

汽车与芯片算力杂谈

mpi_options=“–mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader”

mpi_options=“$mpi_options --map-by ppr:1:l3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores”

mpirun $mpi_options -app ./appfile_ccx

Thread Binding Options for AMD EPYC 7742/7763 Processor$ export GOMP_CPU_AFFINITY=0-64:8$ export OMP_NUM_THREADS=8

unzip mlperf-inference-release.zip# cd /mlperf-inference-release/closed/Inspur# export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/# make prebuild(备注：prebuild后会自动进入容器实例)

详细介绍电流互感器功能区别3CT SR ZCT

汽车与芯片算力杂谈

mpi_options=“–mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader”

mpi_options=“$mpi_options --map-by ppr:1:l3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores”

mpirun $mpi_options -app ./appfile_ccx

Thread Binding Options for AMD EPYC 7742/7763 Processor$ export GOMP_CPU_AFFINITY=0-64:8$ export OMP_NUM_THREADS=8

unzip mlperf-inference-release.zip# cd /mlperf-inference-release/closed/Inspur# export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/# make prebuild(备注：prebuild后会自动进入容器实例)

详细介绍电流互感器功能区别3CT SR ZCT

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录