本文是英伟达全面分析的第七篇文章,关注英伟达今年将大规模交付。Orin系统级芯片。海王是亚特兰蒂斯神话的第一位统治者Altan的儿子。Orin一经发布,就成为众多汽车公司争相装车的对象。
本文重点探讨Orin包括新一代在内的硬件和软件架构GPU、CPU、以深度学习加速器为基础Orin的软件栈。
1. Orin概览
2019年英伟达推出DRIVE AGX Orin平台,最高算力(INT8)达到2000TOPS,既覆盖从L2到L5自动驾驶全场景还包括高性能的可视化、数字仪表、车载信息娱乐和交互AI平台和上一代在硬件和软件上Xavier完全兼容,下图是基于单Orin和双Orin从L2到L5自动驾驶系统方案。
DRIVE AGX Orin平台内置Orin SoC芯片,基于下图Jetson AGX Orin机器人计算平台,供参考。
2. Orin的系统架构
Orin SoC采用7纳米工艺,由Ampere架构的GPU,ARM Hercules CPU,第二代深度学习加速器DLA、第二代视觉加速器PVA、视频编解码器,宽动态范围ISP同时引入了车辆级安全岛Safety Island下图为设计Orin SoC系统架构。
Orin支持204GB/s内存带宽和最高64GB的DRAM,高速I/O与上一代接口Xavier SoC275TOPS的INT8算力,是Xavier的7倍,功耗55W。
3. Orin的硬件架构
3.1 Ampere GPU
Orin采用新一代Ampere架构GPU,由2个GPC(Graphics Processing Clusters,由图形处理簇组成。
每个GPC又包含4个TPC(Texture Processing Clusters, 纹理处理簇),每一个TPC由2个SM(Streaming Multiprocesor,下图为流处理器)Orin的GPU架构。
每个SM有192KB的L1缓存和4MB的L2缓存,包括128个CUDA Core和4个Tensor Core。
因此Orin总计2048个CUDA Core和64个Tensor Core,INT8稀疏算力为170 TOPS(Tensor Core提供),INT8稠密算力为54TOPS,FP32算力为5.3TFLOP(由Cuda Core提供)。
与上一代Volta架构的GPU相比,Tensor Core引入对稀疏性的支持, 稀疏性Sparsity它是一种细粒度的计算结构,能使吞吐量翻倍,减少内存使用量。
3.2 第三代张量核稀疏技术
Ampere架构中第三代Tensor Core这是第一次引入细粒度结构化稀疏技术(Fine-grained structured sparsity ,稀疏性)也支持英伟达对外宣传AI计算基准的关键控制点。
稀疏技术主要分为两部分:
首先,对权重网络进行密集训练(Dense trained weights),修剪网络权重(pruning)稀疏矩阵为2:4,稀疏矩阵中每4个元素中有2个非零值,最后微调非零重量(fine-tune),通过权重网络压缩,将数据占用空间和带宽减少到原来的一半;
二是在Tensor Core加入选择电路,称为稀疏tensor core),根据权重索引过滤掉0的位置weights不是0的部分和输入Tensor相应部分的内积大大降低了矩阵乘法所需的计算量,即跳零(skipping the zeros)将数学计算的吞吐量加倍。
3.3 第二代DLA
Orin第二代深度学习加速器DLA,与第一代相比,主要有两个变化:
一是增加本地缓冲,提高效率,降低效率DRAM二是引入结构化稀疏功能(structured sparsity),深度卷积处理器的增加(depth wise convolution processor)以及硬件调度器(hardware scheduler),下图为第二代DLA架构。
总体使得DLA的INT8稀疏算力为105TOPS,INT8稠密算力为11.4TOPS,而Xavier中的第一代DLA为5TOPS。
TensorRT可以在DLA上INT8或FP16运行各种网络,支持卷积、反卷积、全连接、激活、池化batch归一化(batch normalization)等各种层。
3.4 Arm A78 CPU
Orin在系统架构中,CPU以前自研的Carmel架构回到5纳米工艺ARM Cortex-A78上,下图为CPU架构。
Orin多达12个CPU每个内核包含64个内核KB的L1指令缓存和64KB的L1数据缓存和256KB的L2缓存。
每4个CPU一个核心形成CPU簇,一起用一个2MB的L3缓存,最大支持CPU频率达到了2.2GHz。
与上一代相比Xavier的8核Carmel CPU,Orin的12核A78 CPU性能提升1.9倍。
3.5 内存和通讯
Orin最高支持64GB的256位LPDDR5和64GB的eMMC。
DRAM支持3200MHz最大时钟速度,每个引脚6400Gbps,支持204.8GB/s内存带宽,是的Xavier内存带宽 memory bandwidth 的1.4倍、存储storage的2倍。
下图显示了Orin在每个组件中,通过内存控制器结构(Fabric)和DRAM如何通信和数据交互。
3.6 视频编解码器
Orin包含多标准视频编码器 (ENC)、多标准视频解码器 (DEC) 和JPEG处理块 (JPEG)。
ENC和DEC编解码标准支持完整的硬件加速,包括H.265、H.264 、AV1等;JPEG用于JPEG解压图像的解压计算、图像缩放和解码(YUV420、YUV422H/V、YUV444、YUV400)和色彩空间转换(RGB到YUV)等功能。
3.7 第二代视觉加速器PVA和VIC
Orin中对PVA升级,包括双7路VLIW(超长指令字)矢量处理单元、双DMA和Cortex-R5.支持计算机视觉过滤、变形、图像金字塔、特征检测和FFT等功能。
Orin还包含一个Gen 4.2视频成像合成器 (Video Imaging Compositor,VIC) 2D 支持镜头畸变校正增强、时间降噪、视频清晰度增强、像素处理(色彩空间转换、缩放、混合合成)等图像处理功能。
为了调用Orin SoC多个硬件组件(PVA、VIC、CPU、GPU、 ENC等等),英伟达开发了视觉编程界面( Vision Programming Interface,VPI)。作为软件库,VPI附有多种图像处理算法(如框架过滤、卷积、图像重缩放和重映射)和计算机视觉算法(如哈里斯角检测)KLT 特征跟踪器、光流、背景减法等)。
3.8 I/O接口
Orin包含大量高速 I/O,包括了22通道PCIe Gen4.以太网接口(千兆,10千兆),显示端口,16通道MIPI CSI-2、USB3.2等。
Orin电源管理集成电路 (Power Management Integrated Circuit,PMIC)、稳压器和电源树支持15W、30W 、50W、60W功率模式。
4. Orin的软件栈
Orin软件栈是基于软件开发工具包的SDK(Software Development Kit)提供支持。
主要是板级支撑包 (BSP),包括指导程序Bootloader、Linux核心,驱动程序Driver、工具链Tool chain和基于Ubuntu参考文件系统,BSP还支持各种安全功能(安全启动、可信执行环境、磁盘和内存加密等)。
在BSP以上有多个用户级库用于加速应用,包括深度学习加速库(CUDA、CuDNN、Tensor RT),加速计算库(cuBLAS、cuFTT),计算机视觉和图像处理库(VPI),多媒体及相机库(libArgus 和 v4l2)。
TensorRT运行时库用于深度学习推理( Runtime library)和优化器( Optimizer ),可提供较低的延迟(Latency)和更高的吞吐量( Throughput ), 也就是说,内核节点通过模型量化集成( Fusing nodes in a kernel)并选择最佳数据层和算法(Best data layers and algorithms )来优化GPU内存和带宽(Memory and bandwidth)的使用。
cuDNN( CUDA Deep Neural Network Library,英伟达专门为深度神经网络开发为深度神经网络开发的GPU加速库对卷积、池化等常见操作进行了大量的底层优化,与一般操作相比GPU程序要快得多,大多数主流深度学习框架都支持 cuDNN。
此外,Orin软件栈也支持特殊场景。SDK,包括智能视频分析应用程序DeepStream、用于机器人应用程序Isaac以及自然语言处理应用程序Riva,支持更多生态应用的发展。
下图是基于Jetson AGX Orin机器人计算平台供参考。
对于边缘部署场景,推出了预训练模型 (PTM) ,已经采用了数百万张图像进行了预训练,模型库中包括了人车检测、自然语言处理、姿势估计、车牌检测、人脸检测等模型,可以实现开箱即用;
此外配合TAO工具包( TAO toolkit ),使客户能够使用自己的数据集进行训练、微调和优化这些预训练模型,形成快速部署。
针对已经部署在边缘端的模型,借助云,通过容器和容器编排技术实现定期更新,包括具有Docker集成的 NVIDIA Container Runtime,以简化大规模 AI 模型的部署。
5. 地表最强,车企疯抢
目前Orin的订单火爆,已经有越来越多的车企和初创公司宣布搭载Orin平台。
上汽的R和智己,理想L9、蔚来ET7、小鹏新一代P7,威马M7、比亚迪、沃尔沃XC90,还有自动驾驶卡车公司智加科技,Robotaxi等众多明星企业Cruise、Zoox、滴滴、小马智行、AutoX、软件公司Momonta等等,都搭载Orin平台进行开发。
很多车企在拿到Orin样板都迫不及待地官宣,试图对外展示是Orin的首装,Orin的交付,可以看作是今年智能汽车里程碑事件。
6. 汽车人参考小结
燃油车向电动车和智能车过渡,高续航成为标配,拼续航为代表的电动化基本进入了下半场;到智能汽车,业界很自然共识是从“马力”到“算力”,因此从拼续航到了拼马力时代。
英伟达Orin卖点就是算力,踩得非常准,就是要用自身优势掀起算力的军备竞赛。
车企智能化还在竞争中,特别是在高端车型上,急需要有一个卖点和标签,而市面上可选的芯片只有英伟达一家,因此就出现了车企疯抢的状态。
汽车人参考认为,一方面英伟达算力是稀疏的,算力利用率、性价比需要更详细分析,车企对其算力的认知会越来越清晰;另外一方面,在主流车型上,芯片的算力也会逐步向电池续航一样开始收敛,最终会达到一个平衡,回归比性价比的真实状态。
百度安全验证