来源:FPGA技术江湖 版权归作者所有
文章大纲
但通常意义上的AI芯片是指专门为人工智能算法设计的芯片。
即专门用于处理人工智能应用程序中大量计算任务的模块(其他非计算任务仍由CPU负责)。
由于芯片计算能力不足,神经网络不受重视;
通用芯片CPU计算能力显著提高,但仍不能满足神经网络的需要;
GPU和谐新架构AI芯片推动人工智能着陆。
2014年李天石博士DianNao科学界可以看到一系列的论文,也可以在冯诺依曼架构下实现AI专用芯片;
Google推出的TPU运算架构的AlphaGo,连续击败李世石和柯洁,看到了专用芯片的商业价值。
GPT-3模型中使用的最大数据集在处理前达到45TB。根据OpenAI计算统计单位petaflops/s-days,训练AlphaGoZero需要1800-2000pfs-day,而GPT-3用了3640pfs-day。
系统需要能够有效地处理大量的非结构化数据(文本、视频、图像、语音等)。硬件需要具有高效的线性代数操作能力,计算任务具有:单位计算任务简单,逻辑控制难度低,但并行操作量大,参数多的特点。对芯片多核并行操作、芯片存储、带宽、低延迟访问存储提出了较高的要求。
人工智能训练任务所需的计算能力为3.它将在43个月内翻倍,远远超过了芯片行业长期存在的摩尔定律(芯片的性能将在18个月内翻倍)。
对主流AI算法框架兼容、可编程、可扩展、功耗低、体积和价格。
。训练芯片主要是指通过大量的数据输入构建复杂的深度神经网络模型AI芯片具有较强的计算能力。推断芯片主要是指利用训练模型加载数据来计算推理各种结论AI芯片,侧重考虑单位能耗算力、时延、成本等性能。
是指部署在公共云、私有云或混合云上AI芯片不仅可以用于训练,还可以用于推断,计算能力强。
指嵌入式、移动终端等领域的应用AI芯片,一般体积小,耗电量低,性能不需要特别强。
其中,GPU是比较成熟的通用人工智能芯片,FPGA和ASIC半定制和全定制芯片是针对人工智能需求特征的。类脑芯片颠覆了传统的冯诺依曼结构。它是一种模拟人脑神经元结构的芯片。类脑芯片的发展仍处于起步阶段。
(VertexShader);
(ShapeAssembly),又称图元组装;
(GeometryShader);
(Rasterization);
(FragmentShader);
(TestsandBlending)。
又称显示核心、显卡、视觉处理器、显示芯片或绘图芯片,是专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图操作的微处理器。
,分担部分原本是由CPU工作,特别是在三维绘图操作中,效果更加明显。图形处理器的核心技术包括硬件坐标转换和光源、三维环境材料地图和顶点混合、纹理压缩和凹凸映射地图、双纹理四像素256渲染发动机等。
,有数百或数千个核心,经过优化,可以并行计算。GPU在游戏中以3D渲染以其运行分析、深度学习和机器学习算法而闻名。
CPU处理各种数据类型需要很强的通用性,同时需要逻辑判断,会引入大量的分支跳转和中断处理。这些都使得CPU内部结构极其复杂。GPU面对类型高度统一、相互依赖的大规模数据和不需要中断的纯计算环境。
因此AI芯片制造商只有支持主流开源平台,才能形成稳定的客户群。两个开源平台Tensorflow与Caffe,Caffe2和mxet也逐渐兴起,AI有许多开源平台。
是专门针对AI硬件推出的适应于硬件计算的开发环境,用户能利用C、C++等软件语言更方便的基于AI芯片进行顶层应用开发,同时可以起到硬件加速的效果。目前比较流行的AI开发环境是Nvidia的CUDA。Xilinx推出了SDAccel开发环境,Altera推出了OpenCLSDK开发环境。
随着人工智能技术日趋成熟,数字化基础设施不断完善,人工智能商业化应用将加速落地,推动AI芯片市场高速增长,预计2025年全球人工智能芯片市场规模将达到726亿美元。
5G商用的普及将催生AI芯片在军用、民用等多个领域的应用需求。在政策、市场、技术等合力作用下,中国AI芯片行业将快速发展,在2023年市场规模将突破千亿元。
,这些函数主要用于绘制各种图形所需要的运算。这些和像素,光影处理,3D坐标变换等相关的运算由GPU硬件加速来实现。
——如图形数据的矩阵运算,GPU的微架构就是面向适合于矩阵类型的数值计算而设计的,大量重复设计的计算单元,这类计算可以分成众多独立的数值计算——大量数值运算的线程,而且数据之间没有像程序执行的那种逻辑关联性。
目前市面上有非常丰富GPU微架构,比如Pascal、Volta、Turing(图灵)、Ampere(安培),分别发布于2016年、2017年、2018年和2020年,代表着英伟达GPU的最高工艺水平。
的运算部份由流处理器、纹理单元、张量单元、光线追踪单元、光栅化处理单元组成。这些运算单元中,张量单元,光线追踪单元由NVIDIA在伏特/图灵微架构引入。
还包含L0/L1操作缓存、Warp调度器、分配单元、寄存器堆、特殊功能单元、存取单元、显卡互联单元、PCIe总线接口、L2缓存、二代高位宽显存等接口。
,八个GPC与L2Cache坐落于核心地段,左右为外部存储接口,12道显存控制器负责与6块HBM2存储器数据交互,顶部为PCIe4.0控制器负责与主机通信,底部又有12条高速NVLink通道与其他GPU连为一体。
每个区块有独立的L0指令缓存、Warp调度器、分发单元,以及16384个32位寄存器,这使得每个SM可以并行执行4组不同指令序列。4个区块共享L1指令缓存和数据缓存、sharedmemory、纹理单元。
,还有额外4个身宽体胖的TensorCore,这是加速DeepLearning计算的重磅武器,已发展到第三代,每个时钟周期可做1024次FP16乘加运算,与Volta和Turing相比,每个SM的吞吐翻倍,支持的数据类型也更为丰富,包括FP64、TF32、FP16、BF16、INT8、INT4、INT1(另外还有BF16)。
目前GPUAPI可以分为2大阵营和若干其他类。2大阵营分别是微软的DirectX标准和KhronosGroup标准,其他类包括苹果的MetalAPI、AMD的Mantle(地幔)API、英特尔的OneAPI等。
,加强3D图形和声音效果,并提供设计人员一个共同的硬件驱动标准,让游戏开发者不必为每一品牌的硬件来写不同的驱动程序,也降低用户安装及设置硬件的复杂度。DirectX已被广泛使用于Windows操作系统和Xbox主机的电子游戏开发。
,是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口,相比DirectX更加开放。这个接口由近350个不同的函数调用组成,用来绘制从简单的二维图形到复杂的三维景象。OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。
智能驾驶GPU以及军用显控等其他应用领域GPU。在终端GPU中分为集成GPU(集显)与独立GPU(独显),前者注重轻薄,后者注重性能输出。服务器等高性能需求场景下GPU以独立为主。
,GPU于手机及PC端渗透率基本见顶,根据中国社科院数据,2011-2018年全球主要国家PC每百人渗透率呈下降趋势,智能手机对PC具有一定替代性。而云计算与智能驾驶及AI的兴起对高算力产生新需求,将带来高性能GPU市场快速增长。
“训练”和“推断”过程,在终端主要承担“推断”过程,从性能与成本来看ASIC最优。ASIC作为专用芯片,算力与功耗在通用芯片GPU具有绝对优势,但开发周期较长,落地较慢,需一定规模后才能体现成本优势。FPGA可以看做从GPU到ASIC重点过渡方案。相对于GPU可深入到硬件级优化,相比ASIC在算法不断迭代演进情况下更具灵活性,且开发时间更短。
开发者能通过英伟达CUDA平台使用软件语言很方便地开发英伟达GPU实现运算加速,已被广泛认可和普及,积累了良好的编程环境。以TPU为代表的ASIC目前主要运用在巨头的闭环生态,FPGA在数据中心业务中发展较快。
,预计到2027年将达到1853.1亿美元,从2021年到2027年的复合年增长率为32.82%。
2019年集成占据了GPU市场份额的主导地位,但由于混合处理器同时具有集成和独立GPU的能力,因此未来混合细分市场预计将实现最高复合年增长率。
在2019年,智能手机市场占据了全球GPU市场份额的主导地位,预计在预测期内将继续保持这一趋势。但是,由于对医疗设备等其他设备中对小型GPU的需求不断增长,预计其他领域在未来的复合年增长率最高。
在设计和工程应用中图形处理器的广泛使用,预计汽车应用细分市场将在预测期内以最高的复合年增长率增长。
,2020年游戏PC和显示器的出货量同比增长26.8%,达到5500万台。游戏笔记本电脑在2020年增长了创纪录的26.9%。与PC并行,游戏显示器在2020年也达到了新的高度,与2019年相比增长了77%以上,出货量达到了1430万台。
即使游戏台式机逐渐受到青睐,游戏笔记本电脑的显示器连接率不断提高也意味着游戏监控器市场的五年复合年增长率预计将超过10%。IDC预计2025年全球销量达到7290万,复合年增长率为5.8%。
游戏绘图是GPU的传统应用领域,为游戏开发者提供电影级画质的实时渲染;
GPU并行计算的基础结构、可以执行海量数据计算;
GPU访存速度快;
GPU拥有更高的浮点运算能力,对图形与媒体加工速度快;
,AI芯片主要承担推断任务,通过将终端设备上的传感器(麦克风阵列、摄像头等)收集的数据代入训练好的模型推理得出推断结果。由于边缘侧场景多种多样、各不相同,对于计算硬件的考量也不尽相同,对于算力和能耗等性能需求也有大有小。因此应用于边缘侧的计算芯片需要针对特殊场景进行针对性设计以实现最优的解决方案。
经历了由模拟向数字化、数字化高清到现在的数字化智能方向的发展,最新的智能摄像头除了实现简单的录、存功能外,还可以实现结构化图像数据分析。安防摄像头一天可产生20GB数据,若将全部数据回传到云数据中心将会对网络带宽和数据中心资源造成极大占用。
在摄像头终端、网络边缘侧加装AI芯片,实现对摄像头数据的本地化实时处理,经过结构化处理、关键信息提取,仅将带有关键信息的数据回传后方,将会大大降低网络传输带宽压力。
前端摄像头设备内集成AI芯片和在边缘侧采取智能服务器级产品。前端芯片在设计上需要平衡面积、功耗、成本、可靠性等问题,最好采取低功耗、低成本解决方案;边缘侧限制更少,可以采取能够进行更大规模数据处理任务的服务器级产品。
GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求,为自然语言处理、计算机视觉、语音交互等人工智能应用场景提供强大的算力支持,已经成为人工智能发展的重要支撑力量相比于传统CPU服务器,在提供相同算力情况下,GPU服务器在成本、空间占用和能耗分别为传统方案的1/8、1/15和1/8。
强大的并行计算能力(相比CPU)、通用性以及成熟的开发环境。2020年全球AI服务器市场规模为122亿美元,预计到2025年全球AI智能服务器市场将达到288亿美元,5年CAGR达到18.8%。
,由于深度学习模型开发及部署需要强大算力支持,需要专用的芯片及服务器支持。开发者如选择自购AI服务器成本过高。通过云服务模式,采取按需租用超算中心计算资源可极大降低项目期初资本投入同时也省却了项目开发期间的硬件运维费用,实现资本配置效率的最大化提升。
IDC最新发布的《全球自动驾驶汽车预测报告(2020-2024)》数据显示,2024年全球L1-L5级自动驾驶汽车出货量预计将达到约5425万辆,2020至2024年的年均复合增长率(CAGR)达到18.3%;L1和L2级自动驾驶在2024年的市场份额预计分别为64.4%和34.0%。尽管目前L3-L5级自动驾驶技术的应用具有开拓性意义,L1-L2级自动驾驶将依然是未来5年内带动全球自动驾驶汽车出货量增长的最大细分市场。
中汽协数据显示,2021年1-3月,中国品牌乘用车共销售210.8万辆,同比增长81.5%,占乘用车销售总量的41.5%,占有率比上年同期提升1.4个百分点。2020年1月份至9月份,L2级智能网联乘用车销售量达196万辆,占乘用车总销量的14.7%。
,多地开展自动泊车、自动驾驶公交车、无人智能重卡等方面的示范应用。到2025年,我国PA(部分自动驾驶)、CA(有条件自动驾驶)级智能网联汽车销量占当年汽车总销量比例超过50%,C-V2X(以蜂窝通信为基础的移动车联网)终端新车装配率达50%。
而L4、L5级自动驾驶预计将会率先在封闭园区中的商用车平台上实现应用落地,更广泛的乘用车平台高级别自动驾驶,需要伴随着技术、政策、基础设施建设的进一步完善,预计至少在2025年~2030年以后才会出现在一般道路上。
行车过程中依赖雷达等传感器对道理信息进行采集后,处理器每秒需实时数据解析几G量级数据,每秒可以产生超过1G的数据。对处理器的计算量要求较高。
处理分析实时数据后,需要在毫秒的时间精度下对行车路径、车速进行规划,保障行车过程安全,对处理器的计算速度要求较高。
GPU为自动驾驶领域主流。
汽车电子控制系统是分布式ECU架构,不同的信息娱乐、车身、车辆运动和动力总成系统及其细分功能分别由不同独立的ECU单元进行独立控制,部分高档车型上的ECU数量超过100个。
,汽车电子操控系统将会进一步向着集中化、软硬件解耦及平台化方向发展,汽车将会由统一的超算平台对传感器数据进行处理、融合、决策最终实现高级别的自动驾驶功能。
GeForceGPU、云游戏平台及相关产品设施;
包括Telsa系列的GPU产品、EGX&HGX&DGX终端产品为数据中心加速器、边缘计算、AI计算数据中心服务器GraceCPU;
:收购Mellanox,积极布局数据中心存储、传输DPU;
Quadro专业绘图工作站、RTX图形处理器、vGPU软件;
DRIVEAGX为自动驾驶工作平台。
净利润为24.64亿0%美元,同比增长84%。其中游戏业务收入达32.2亿美元,较去年同期增长42%;数据中心业务收入为29.4亿美元,同比增长55%。专业可视化业务收入达5.77亿美元,同比增长144%;自动驾驶业务收入达1.35亿美元,同比增长8%。
其中OpenCL、DirectCompute、AMDAPP(基于开放型标准OpenCL开发)是开放标准,CUDA是私有标准。
,公司推出CUDA软件推展,推动GPU向通用计算转变,之后不断强化通用系统生态构建。为开发者提供了丰富的开发软件站SDK、支持现有的大部分机器学习、深度学习开发框架。推出的cuDNN、TensorRT、DeepStream等优化的软件也为GPU通用计算提供加速。
NVIDIAGeforce系列主要面向家庭和企业的娱乐应用,分为面向性能的GTX系列,面向主流市场的GTS和GT系列,已经具有高性价比的GS系列。
核心数目;
显存带宽;
峰值单精度浮点计算能力;
峰值双精度浮点计算能力;
时钟频率;
架构版本。
通过将不同类型的GPU加速器与CPU、DDR等硬件产品组合以及软件开发,推出面向高性能计算HPC、人工智能DGX、边缘计算EGX等硬件产品。
务,加速使用深度学习框架;虚拟GPU主要用于在虚拟机上运营AI、深度学习和高性能计算。
形成NvidiaGPU+MellanoxRDMA+NvidiaCUDA整体解决方案,提供从人工智能计算到网络的端到端技术全堆栈产品。
,同时对话式AI、推荐系统等下游场景的训练模型部署的增多。22财年Q3,公司数据中心业务收入为29.4亿美元,同比增长55%。
BlueFieldDPU通过分流、加速和隔离各种高级网络、存储和安全服务,为云、数据中心或边缘等环境中的各种工作负载提供安全的加速基础设施。BlueFieldDPU将计算能力、数据中心基础功能的可编程性及高性能网络相结合,可实现非常高的工作负载。
用于大型计算中心或者超级计算机等场景中,通过Nvlink实现CPU、GPU之间的大带宽链接和交互。未来数据中心将具备GPU+CPU+DPU整体解决方案。
。同时推出了自动驾驶配套的仿真系统、底层开发平台、服务平台解决方案、自动驾驶功能方案和人机交换方案等,覆盖了硬件+软件的一体化解决方案,加快下游客户自动驾驶计算的测试与开发。
,同比增长8%,环比下降11%。环比下降主要是受到汽车供应链紧张限制。
TegraX1、TegraParker、TegraXavier、DriverXavier、DriveAGXOrin、Orin、Atlan等。
,包括DriverPX、DriverPX2、DriverPXXavier、DriverPXPegasus、DriverAGXXavier、DriberAGXPegasus、DriveOrin、PagasusRobotaxi。
Xavier和Orin自动驾驶计算平台的发布,公司新增覆盖L2/3级别的自动驾驶应用场景,目前已经覆盖L2-L5级的自动驾驶的应用场景。
,集成了170亿个晶体管并使用新的NVIDIAGPU和12核ARMCPU,性能是上一代Xavier的7倍,将于2022年投入量产。
。2021年4月13日发布最新一代超算力芯片Atlan,单芯片算力达1,000TOPS,可满足L5需求,预计2023年提供样品。
(操作系统DriveOS+中间件DriveWorks+软件堆栈DriveAV),工具链稳定,开放程度高。
,Arm凭借Cortex系列产品为CPU设计了蓝图,拥有Mali的GPU系列。
,Nvidia提供将Arm的CPU与其GPU技术集成的机会,创建一个生态系统的服务器芯片,除了数据中心还可以加速进入消费设备和汽车领域,将在2023年提供2500亿美元的目标市场。
OmniverseConnect、Nucleus、Kit、Simulation和RTX。这些组件连同所连接的第三方数字内容创作(DCC)工具,以及所连接的其他Omniverse微服务,共同组成整个Omniverse生态系统。
Nucleus是连接不同位臵的用户,实现3D资产交互和场景描的数据库引擎。连接以后,负责建模、布局、着色、动画、照明、特效或渲染工作的设计师,可以协作创建场景。Connect被作为插件分发,使客户端应用程序可以连接到Nucleus。Kit是一个用于构建原生Omniverse应用和微服务的工具包。
国内AI芯片行业投融资金额同比增长了52.8%,2021年1月至4月的投融资事件和金额均已超过去年全年,资本对国内半导体、集成电路领域投资高涨。
,人工智能领域是2020年资本青睐度较高的细分赛道之一。2020年资本投资的主要是相对成熟且已获得1-2轮甚至2轮以上融资的AI芯片企业。
,创业进入市场检验期。大量AI芯片公司在15~17年成立。
,市场将会对各厂商的产品和技术进行实际检验。市场期待更高算力、更低功耗、成本更低的AI芯片。
,针对异构计算等各类应用的高性能通用GPU芯片。
,产品主要应用方向包含传统GPU及移动应用,人工智能、云计算、数据中心等高性能异构计算领域,是今后面向社会各个方面通用信息产业提升算力水平的重要基础产品。
,专注研发全兼容CUDA及ROCm生态的国产高性能GPU芯片,满足HPC、数据中心及AI等方面的计算需求。致力于研发生产拥有自主知识产权的、安全可靠的高性能GPU芯片,服务数据中心、云游戏、人工智能等需要高算力的诸多重要领域。
参考资料来自:华西证券、驭势资本研究所
- THE END -