盘点2021年全球AI芯片，详解“xPU”，请收下最新最全的知识点-锐单电子商城

前言

你一定听说过CPU、GPU，但是TPU、VPU、NPU、XPU…等待其他字母开头的xPU”呢？

AI概念几年前在世界各地流行起来，科技巨头们纷纷投资AI小公司也致力于芯片研发的概念AI浪潮融资，为了快速AI在市场上站稳脚跟，为了让市场和用户记住自己的产品，每个家庭都在芯片命名上下了一些功夫，不仅要独特，还要适合公司的产品，还要朗朗上口，容易记住。上述xPU命名方式深受各大厂商的喜爱。

AI芯片

本文从字母A到Z来盘点一下目前的各种xPU”命名AI芯片和芯片行业的各种xPU缩写，给大家提高知识。此外，除了xPU本文还扩展了一些命名方法xxP”方式的以Processor命名芯片或IP。

1、APU

Accelerated Processing Unit

APU是AMD作为一个处理器品牌，它首次在晶片上制作中央处理器和独立显示器核心，同时具有高性能处理器和最新独立显卡的处理性能。AMD传统集成在芯片上CPU和图形处理器GPU，这样主板上将不再需要北桥，任务可以灵活地在CPU和GPU间分配。AMD将这种异构结构称为加速处理单元，即APU。

2021年8月，AMD新款即将售出APU：5600G和5700G，任天堂Switch 以及 PS4中有使用。

Audio Processing Unit

顾名思义，声音处理器是处理声音数据的专用处理器。不多说，生产APU有很多芯片制造商。声卡里有。

2、BPU

Brain Processing Unit

地平线机器人（Horizon Robotics）以BPU命名自己的AI芯片。地平线成立于2015年start-up，总部位于北京，目标是全球嵌入式人工智能领袖。未来，地平线芯片将直接应用于其主要产品，包括智能驾驶、智能生活和智能城市。地平线机器人的公司名称很容易被误解，认为它是一个机器人，但事实并非如此。地平线不是机器，而是人和人工智能的大脑。因此，它的处理器被命名为BPU。与国内外其他国家相比AI芯片start-up第一代地平线公司BPU相对保守TSMC的40nm工艺。BPU注册商标已被地平线申请，其他公司不打架BPU的主意了。

Biological Processing Unit

一个口号“21 世纪是生物学的世纪，无数有抱负的年轻人跳进了生物学领域的大坑。事实上，这句话需要这样理解21世纪其他学科的发展。例如，人脑神经系统的研究成果将得到促进AI发展领域，SNN结构是对人脑神经元的模拟。无论如何，随着时间的推移，坑总会被填满。不知道生物处理器什么时候会有质的发展。

Bio-Recognition Processing Unit

生物特征识别现在已经不是纸上谈兵了。指纹识别是近期智能手机的标准，电影中的黑色技术虹膜识别也在手机上，声纹识别可以支付…然而，除了指纹识别外，还有特殊的指纹识别ASIC除了芯片，其他生物识别基本上都是sensor加通用cpu/dsp方案。无论如何，这些芯片没有被占用BPU或BRPU这个宝贵的位置。

3、CPU

Central Processing Unit

CPU中央处理器就不多说了。AI该公司将其芯片命名为CPU的。不过，CPU与AI处理器不冲突。

首先，很多公司AI它仍将用于处理器CPU控制调度。wave computing用的是Andes的CPU core；Mobileye用了好几个MIPS的CPU core；国内的某些AI芯片公司使用ARM的CPU core。

此外，在现有的移动市场AP中，在CPU另外，再集成一两个AI加速器IP(例如，视觉应用DSP，见VPU部分)也是一种趋势。2017 年，麒麟 970 第一次把 NPU 技术应用在手机里。我们今天看到的是，所有的手机芯片都必须有 AI 处理芯片，2020年麒麟9000的出现更是把AI移动处理器的性能大大提高。

另一种趋势是做高性能计算CPU不愿错过的公司AI例如，

Adapteva。一家做多核MIMD结构处理器公司。2016年tapeout的Epiphany V集成有1024个核。与之前的版本相比，针对deep learning并加密特定指令。
kalrayinc。多核并行处理器公司有数据中心和自动驾驶解决方案。第三代最近公布MPPA处理器“Coolidge计划，融资$26 Million。计划采用16nm FinFET集成80-160个工艺kalray 64-bit core，还有80-160个协处理器用于机器视觉处理和深度学习计算。

4、DPU

作为Deep Learning以D开头命名的首字母AI芯片是一种很自然的思路。

Deep-Learning Processing Unit

深度学习处理器。DPU并不是哪家公司的专属术语。在学术圈，Deep Learning Processing Unit（或processor）常被提及ISSCC 2017新增的一个session的主题就是Deep Learning Processor。以DPU目标公司如下：

Deephi Tech（深鉴）。深鉴位于北京start-up，清华背景深厚的初创团队。基于深度学习开发FPGA神经网络处理器称为DPU。到目前为止，深鉴已经公开发布了两款DPU：亚里士多德架构和笛卡尔架构分别针对CNN以及DNN/RNN。虽然深鉴号称是基于做的FPGA然而，从公共渠道可以看到的招聘信息和非公息和非公共行业交流来看，芯片已经成为事实。

TensTorrent。一家位于Toronto的start-up，专门为深度学习和智能硬件设计的高性能处理器，技术人员来自NVDIA和AMD。

Deep Learning Unit

深度学习单元。Fujitsu(富士通)最近高调宣布自己AI芯片，命名为DLU。名字虽然没什么创意，但是可以看到DLU已被富士通标TM”，虽然TM也没啥用。可以在其发布的信息中看到，DLU的ISA重新设计，DLU许多小架构包含在许多小架构中DPU（Deep Learning Processing Unit）和几个大的master core（控制多个DPU和memory访问）。每个DPU还有16个DPE（Deep-Learning Processing Element），执行单位共128个SIMD指令。富士通预计将在2018财年内推出DLU。

Deep Learning Accelerator

深度学习加速器。2019年，英伟达 GitHub 上开源了 NVDLA 编译器的源代码，这是世界上首个软硬件推理平台的完整开源代码，给业界带来了不小的波澜。下图是NVDLA架构示意。

Dataflow Processing Unit

数据流处理器。创立于2010年的wave computing公司称其开发的深度学习加速处理器为Dataflow Processing Unit(DPU)，应用于数据中心。Wave的DPU内集成1024个cluster。每个Cluster对应一个独立的全定制地图，每个地图Cluster8个算术单元和16个算术单元PE。其中，PE采用异步逻辑设计，无时钟信号，由数据流驱动，称为Dataflow Processor的缘由。使用TSMC 16nm FinFET工艺，DPU die面积大概400mm^2，内部单口sram至少24MB，功耗约为200W，等效频率可达10GHz，性能可达181TOPS。

Data-storage Processing Unit

数据存储处理器。深圳大普微电子开发固态硬盘SSD主控芯片。SSD主控也是一个很大的市场，国内有很多公司在这个方向上奋斗。

Digital Signal Processor

数字信号处理器。芯片行业的人是对的DSP设计并不陌生DSP也有很多公司，TI，Qualcomm，CEVA，Tensilica，ADI，Freescale，Cadence等等，都是大公司，这里不多介绍。相比于CPU，DSP提高数字计算的性能，如增加指令并行度SIMD、VLIW、SuperScalar等技术。面对AI新的领域计算方法(例如CNN、DNN等)挑战，DSP公司也在不断改造自己DSP，推出支持神经网络计算的芯片系列。在后面VPU这部分将被介绍Vision应用的DSP。和CPU一样，DSP长期以来，技术一直掌握在外国公司手中，清华大学微电子研究所等国内科研机构也不乏努力工作的科研机构Lily DSP（VLIW架构，独立编译)，国防科技大学YHFT-QDSP和矩阵2000。但也有臭名昭著的汉芯。

5、EPU

Emotion Processing Unit

Emoshape 这两年才推出EPU的，号称是全球首款情绪合成（emotion synthesis）引擎，能让机器人有情绪。但是，从官方渠道来看，EPU它本身并不复杂，也不需要基于任务量巨大的神经网络计算。MCU芯片。结合应用API以及云增强学习算法，EPU可以机器能够在情绪上了解它们所读或所看的内容。结合自然语言生成(NLG)及WaveNet技术，可以让机器个性化的表达各种情绪。例如，一部能够朗读的Kindle，其语音将根据所读的内容充满不同的情绪状态。

6、FPU

先说一个最常用的FPU缩写：Floating Point Unit。浮点单元，不多做解释了。现在高性能的CPU、DSP、GPU内都集成了FPU做浮点运算。

7、GPU

Graphics Processing Unit

图形处理器。GPU原来最大的需求来自PC市场上各类游戏对图形处理的需求，随着AI的火热，在深度学习并行训练和推理上应用十分广泛。但是随着移动设备的升级，在移动端也逐渐发展起来。

NVIDIA。说起GPU，毫无疑问现在的老大是NVIDIA。这家成立于1993年的芯片公司一直致力于设计各种GPU：针对个人和游戏玩家的GeForce系列，针对专业工作站的Quadro系列，以及针对服务器和高性能运算的Tesla系列。随着AI的发展，NVIDIA在AI应用方面不断发力，推出了针对自动驾驶的DRIVE系列，以及专为AI打造的VOLTA架构。特别提一下VOLTA，今年5月份，NVIDIA发布的Tesla V100采用TSMC 12nm工艺，面积竟然815mm^2，号称相关研发费用高达30亿美元。得益于在AI领域的一家独大，NVIFIA的股价在过去一年的时间里狂涨了300%。最后，也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器。
AMD。这几年NVIDIA的火爆，都快让大家忘了AMD的存在了。AMD是芯片行业中非常古老的一家芯片公司，成立于1969年，比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司。AMD新出的MI系列GPU将目标对准AI。

在移动端市场，GPU被三家公司瓜分，但是也阻止不了新的竞争者杀入。

ARM家的Mali。Mali不是ARM的自创GPU品牌，来自于ARM于2006年收购的Falanx公司。Falanx最初的GPU是面向PC市场的，但是根本就无法参与到NVIDIA和ATI的竞争中去，于是转向移动市场；并且Falanx最初的GPU的名字也不是Mali，而是Maliak，为了好记，改为Mali，来自罗马尼亚文，意思是small，而不是我们熟悉的吃蘑菇救公主的超级玛丽（SuperMALI）。
Imagination的PowerVR。主要客户是苹果，所以主要精力都在支持苹果，对其他客户的支持不足。但是，苹果突然宣布放弃PVR转为自研，对Imagination打击不小，股价大跌六成。Imagination现在正在寻求整体出售，土财快追，但是，美国未必批。
Qualcomm的Adreno。技术来自于AMD收购ATI后出售的移动GPU品牌Imageon。有意思的是，名字改自于ATI的知名GPU品牌Radeon；
VeriSilicon的Vivante。Vivante（图芯）是一家成立于2004年的以做嵌入式GPU为主的芯片公司，于2015年被VSI收购。Vivante的市场占有率较低。这里多加一段小八卦，Vivante的创始人叫戴伟进，VSI的创始人叫戴伟民，一句话对这次收购进行总结就是，戴家老大收购了戴家老二。哦，对了，戴家还有一个三妹戴伟立，创立的公司名号更响亮：Marvell。
Samsung的。。。哦，三星没有自己的GPU。2021年中旬，三星表示即将推出的三星Exynos旗舰处理器中的GPU将基于AMD最新的RDNA2架构打造，这标志着新GPU首次登陆移动平台。

再简单补充国内的两家开发GPU的公司：

上海兆芯。兆芯是VIA（威盛）分离出来的。兆芯于2016年针对移动端出了一款GPU芯片ZX-2000，名字有点简单直接。主要技术来源于威盛授权，GPU核心技术来自收购的美国S3 Graphics。
长沙景嘉微电子。于2014年推出一款GPU芯片JM5400。这是一家有国防科大背景的公司，与龙芯为合作伙伴，芯片主要应用在军用飞机和神舟飞船上。

Graph Streaming Processor

图形流处理器。这是ThinCI（取意think-eye）提出的缩写。ThinCI是一家致力于打造deep learning和computer vision芯片的start-up，由4名Intel前员工创立于2010年，总部在Sacramento，在印度也有研发人员。ThinCI的视觉芯片瞄准了自动驾驶应用，投资方有世界顶级汽车零部件供应商公司日本电装DENSO。在刚结束的hotchip会议上，ThinCI介绍了他们的GSP，使用了多种结构性技术来实现任务级、线程级、数据级和指令级的并行。GSP使用TSMC 28nm HPC+工艺，功耗预计2.5W。

8、HPU

Holographic Processing Unit

全息处理器。Microsoft专为自家Hololens应用开发的。第一代HPU采用28nm HPC工艺，使用了24个Tensilica DSP并进行了定制化扩展。HPU支持5路cameras、1路深度传感器（Depth sensor）和1路动作传感器（Motion Sensor）。Microsoft 在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2将搭载一颗支持DNN的协处理器，专门用于在本地运行各种深度学习。指的一提的是，HPU是一款为特定应用所打造的芯片，这个做产品的思路可以学习。据说Microsoft评测过Movidius（见VPU部分）的芯片，但是觉得无法满足算法对性能、功耗和延迟的要求，所有才有了HPU。

9、IPU

Intelligence Processing Unit

智能处理器。以IPU命名芯片的有两家公司。

Graphcore。Graphcore公司的IPU是专门针对graph的计算而打造的。稍微说说Graph，Graphcore认为Graph是知识模型及相应算法的非常自然的表示，所以将Graph作为机器智能的基础表示方法，既适用于神经网络，也适用于贝叶斯网络和马尔科夫场，以及未来可能出现的新的模型和算法。Graphcore的IPU一直比较神秘，直到近期才有一些细节的信息发布。比如：16nm，同构多核（>1000）架构，同时支持training和inference，使用大量片上sram，性能优于Volta GPU和TPU2，预计2017年底会有产品发布，等等。多八卦一点，Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭。关于IPU更细节的描述，可以看唐博士的微信公号的一篇文章，传输门：解密又一个xPU：Graphcore的IPU。

Mythic。另外一家刚融了$9.3 million的start-up公司Mythic也提到了IPU：“Mythic’s intelligence processing unit (IPU) adds best-in-class intelligence to any device”。和现在流行的数字电路平台方案相比，Mythic号称可以将功耗降到1/50。之所以这么有信心，是因为他们使用的“processing in memory”结构。

Image Cognition Processor

图像认知处理器ICP，加拿大公司CogniVue开发的用于视觉处理和图像认知的IP。跑个题，CogniVue一开始是Freescale的IP供应商，后来于2015年被Freescale收购以进一步加强ADAS芯片的整合开发；随后，Freescale又被NXP 118亿美元拿下；还没完，高通近400亿美元吞并了NXP。现在NXP家的ADAS SOC芯片S32V系列中，就用到了两个ICP IP。

Image Processing Unit

图像处理器。一些SOC芯片中将处理静态图像的模块称为IPU。但是，IPU不是一个常用的缩写，更常见的处理图像信号的处理器的缩写为下面的ISP。

Image Signal Processor

图像信号处理器。这个话题也不是一个小话题。ISP的功能，简单的来说就是处理camera等摄像设备的输出信号，实现降噪、Demosaicing、HDR、色彩管理等功能。以前是各种数码相机、单反相机中的标配。Canon、Nikon、Sony等等，你能想到的出数码相机的公司几乎都有自己的ISP。进入手机摄影时代，人们对摄影摄像的要求也越来越高，ISP必不可少。说回AI领域，camera采集图像数据，也要先经过ISP进行处理之后，再由视觉算法（运行在CPU、GPU或ASIC加速器上的）进行分析、识别、分类、追踪等进一步处理。也许，随着AI技术发展，ISP的一些操作会直接被end-2-end的视觉算法统一。

10、JPU

暂无

11、KPU

Knowledge Processing Unit

嘉楠耘智（canaan）号称2017年将发布自己的AI芯片KPU。嘉楠耘智要在KPU单一芯片中集成人工神经网络和高性能处理器，主要提供异构、实时、离线的人工智能应用服务。这又是一家向AI领域扩张的不差钱的矿机公司。作为一家做矿机芯片（自称是区块链专用芯片）和矿机的公司，嘉楠耘智累计获得近3亿元融资，估值近33亿人民币。2020年，嘉楠耘智公司内部出了问题，财报很难看。

另：Knowledge Processing Unit这个词并不是嘉楠耘智第一个提出来的，早在10年前就已经有论文和书籍讲到这个词汇了。只是，现在嘉楠耘智将KPU申请了注册商标。

12、LPU

暂无

13、MPU

Micro Processing Unit

微处理器。MPU，CPU，MCU，这三个概念差不多，知道就行了。

题外话：并不是所有的xPU都是处理器，比如有个MPU，是Memory Protection Unit的缩写，是内存保护单元，是ARM核中配备的具有内存区域保护功能的模块。

14、NPU

Neural-Network Processing Unit

与GPU类似，神经网络处理器NPU已经成为了一个通用名词，而非某家公司的专用缩写。由于神经网络计算的类型和计算量与传统计算的区别，导致在进行NN计算的时候，传统CPU、DSP甚至GPU都有算力、性能、能效等方面的不足，所以激发了专为NN计算而设计NPU的需求。这里罗列几个以NPU名义发布过产品的公司，以及几个学术圈的神经网络加速器。

中星微电子（Vimicro）的星光智能一号。中星微于2016年抢先发布了“星光智能一号”NPU。但是，这不是一个专为加速Neural Network而开发的处理器。业内都知道其内部集成了多个DSP核（其称为NPU core），通过SIMD指令的调度来实现对CNN、DNN的支持。以这个逻辑，似乎很多芯片都可以叫NPU，其他以DSP为计算核心的SOC芯片的命名和宣传都相对保守了。

Kneron。这是一家位于San Diego的start-up公司，针对IOT应用领域做deep learning IP开发。Kneron开发的NPU实现了39层CNN，28nm下的功耗为0.3W，能效200GFLOPs/W。其主页上给出的另一个能效数据是600GOPs/W。此外，Kneron同时也在FPGA开发云端的硬件IP。据可靠消息，Kneron也要在中国大陆建立研发部门了，地点涉及北京、上海、深圳。

VeriSilicon（芯原）的VIP8000。VSI创立于2001年。VSI于今年5月以神经网络处理器IP的名义发布了这款代号VIP8000的IP。从其公布的消息“VeriSilicon’s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second”来看，这款芯片使用的并不是其DSP core，而是内置了其2015年收购的Vivante的GPU core。按照VSI的说法，VIP8000在16nm FinFET工艺下的计算力超过3 TMAC/s，能效高于1.5 GMAC/s/mW。

DNPU-Deep Neural-Network Processing Unit。DNPU来自于KAIST在ISSCC2017上发表的一篇文章。我把DNPU当做是NPU的一种别名，毕竟现在业内做的支持神经网络计算的芯片没有只支持“非深度”神经网络的。关于DNPU可以参考“从ISSCC Deep Learning处理器论文到人脸识别产品”。
Eyeriss。MIT的神经网络项目，针对CNN的进行高能效的计算加速设计。
Thinker。清华微电子所设计的一款可重构多模态神经计算芯片，可以平衡CNN和RNN在计算和带宽之间的资源冲突。

Neural/Neuromorphic Processing Unit

神经/神经形态处理器。这和上面的神经网络处理器还有所不同。而且，一般也不以“处理器”的名字出现，更多的时候被称为“神经形态芯片（Neuromorphic Chip）”或者是“类脑芯片（Brain-Inspired Chip）”。这类AI芯片不是用CNN、DNN等网络形式来做计算，而是以更类似于脑神经组成结构的SNN（Spiking Neural Network）的形式来进行计算。随便列几个，都不是“xPU”的命名方式。

Qualcomm的Zeroth。高通几年前将Zeroth定义为一款NPU，配合以软件，可以方便的实现SNN的计算。但是，NPU似乎不见了踪影，现在只剩下了同名的机器学习引擎Zeroth SDK。
IBM的TrueNorth。IBM2014年公布的TrueNorth。在一颗芯片上集成了4096个并行的core，每个core包含了256个可编程的神经元neurons，一共1百万个神经元。每个神经元有256个突触synapses，共256 Mlillion。TrueNorth使用了三星的28nm的工艺，共5.4 billion个晶体管。
BrainChip的SNAP（Spiking Neuron Adaptive Processor ）。已经有了赌场的应用。
GeneralVision的CM1K、NM500 chip，以及NeuroMem IP。这家公司的CM1K芯片有1k个神经元，每个神经元对应256Byte存储。虽然无法和强大的TrueNorth相提并论，但是已有客户应用。并且，提供BrainCard，上面有FPGA，并且可以直接和Arduino以及Raspberry Pi连接。
Knowm。这家start-up在忆阻器（memristor）技术基础上做“processing in memory”的AI芯片研发。不过，与前面提到的Mythic（IPU部分）不同的是，Known做的是类脑芯片。Knowm所用的关键技术是一种称为热力学内存(kT-RAM)的memory，是根据AHaH理论(Anti-Hebbian and Hebbian)发展而来。
Koniku。成立于2014年的start-up，要利用生物神经元来做计算，”Biological neurons on a chip”。

15、OPU

Optical-Flow Processing Unit。光流处理器。有需要用专门的芯片来实现光流算法吗？

不知道，但是，用ASIC IP来做加速应该是要的。

16、PPU

Physical Processing Unit

物理处理器。要先解释一下物理运算，就知道物理处理器是做什么的了。物理计算，就是模拟一个物体在真实世界中应该符合的物理定律。具体的说，可以使虚拟世界中的物体运动符合真实世界的物理定律，可以使游戏中的物体行为更加真实，例如布料模拟、毛发模拟、碰撞侦测、流体力学模拟等。开发物理计算引擎的公司有那么几家，使用CPU来完成物理计算，支持多种平台。

Ageia应该是唯一一个使用专用芯片来加速物理计算的公司。Ageia于2006年发布了PPU芯片PhysX，还发布了基于PPU的物理加速卡，同时提供SDK给游戏开发者。2008年被NVIDIA收购后，PhysX加速卡产品被逐渐取消，现在物理计算的加速功能由NVIDIA的GPU实现，PhysX SDK被NVIDIA重新打造。

17、QPU

Quantum Processing Unit

量子处理器。量子计算机也是近几年比较火的研究方向。作者承认在这方面所知甚少。可以关注这家成立于1999年的公司D-Wave System。DWave大概每两年可以将其QPU上的量子位个数翻倍一次。

18、RPU

Resistive Processing Unit

阻抗处理单元RPU。这是IBM Watson Research Center的研究人员提出的概念，真的是个处理单元，而不是处理器。RPU可以同时实现存储和计算。利用RPU阵列，IBM研究人员可以实现80TOPS/s/W的性能。

Ray-tracing Processing Unit

光线追踪处理器。Ray tracing是计算机图形学中的一种渲染算法，RPU是为加速其中的数据计算而开发的加速器。现在这些计算都是GPU的事情了。

19、SPU

Streaming Processing Unit

流处理器。流处理器的概念比较早了，是用于处理视频数据流的单元，一开始出现在显卡芯片的结构里。可以说，GPU就是一种流处理器。甚至，还曾经存在过一家名字为“Streaming Processor Inc”的公司，2004年创立，2009年，随着创始人兼董事长被挖去NVIDIA当首席科学家，SPI关闭。

Speech-Recognition Processing Unit

语音识别处理器，SPU或SRPU。这个缩写还没有公司拿来使用。现在的语音识别和语义理解主要是在云端实现的，比如科大讯飞。科大讯飞最近推出了一个翻译机，可以将语音传回云端，做实时翻译，内部硬件没有去专门了解。和语音识别相关的芯片如下：

启英泰伦（chipintelli）。于2015年11月在成都成立。该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片，可实现单芯片本地离线大词汇量识别。

MIT项目。今年年初媒体爆过MIT的一款黑科技芯片，其实就是MIT在ISSCC2017上发表的paper里的芯片，也是可以实现单芯片离线识别上k个单词。可以参考阅读“分析一下MIT的智能语音识别芯片”。
云知声（UniSound）。云知声是一家专攻智能语音识别技术的公司，成立于2012年6月，总部在北京。云知声获得了3亿人民币战略投资，其中一部分将用来研发其稍早公布的AI芯片计划，命名“UniOne”。据官方透漏，UniOne将内置DNN处理单元，兼容多麦克风、多操作系统。并且，芯片将以模组的形式提供给客户，让客户直接拥有一整套云端芯的服务。

20、TPU

Tensor Processing Unit

Google的张量处理器。TPU项目开始于2014年。2016年AlphaGo打败李世石，2017年AlphaGo打败柯洁，两次人工智能催化事件给芯片行业带来的冲击无疑就是TPU的出现和解密。

Google在2017年5月的开发者I/O大会上正式公布了TPU2，又称Cloud TPU。相比于TPU v1，TPU v2既可以用于training，又可以用于inference。TPU v3是在TPU v2的基础上做了进一步的性能提升，可参考下图。

具体可以看这篇知乎文章浅谈Google TPU。

21、UPU

暂无

22、VPU

Vision Processing Unit

视觉处理器VPU也有希望成为通用名词。作为现今最火热的AI应用领域，计算机视觉的发展的确能给用户带来前所未有的体验。为了处理计算机视觉应用中遇到的超大计算量，多家公司正在为此设计专门的VPU。

Movidius（已被Intel收购）。Movidius成立于2006年，总部位于硅谷的San Mateo，创始人是两个爱尔兰人，所以在爱尔兰有分部。Movidius早期做的是将旧电影转为3D电影的业务，后期开始研发应用于3D渲染的芯片，并开始应用于计算机视觉应用领域（这说明：1，芯片行业才是高技术含量、高门槛、高价值的行业；2，初创公司要随着发展调整自己的战略）。Movidius开发的Myriad系列VPU专门为计算机视觉进行优化，可以用于 3D 扫描建模、室内导航、360°全景视频等更前沿的计算机视觉用途。例如，2014年，谷歌的Project Tango项目用 Myriad 1帮助打造室内三维地图；2016年，大疆的“精灵4”和“御”都采用了Movidius 的 Myriad 2芯片。采用TSMC 28nm工艺的Myriad2中集成了12个向量处理器SHAVE (Streaming Hybrid Architecture Vector Engine)。按照Movidius的说法，SHAVE是一种混合型流处理器，集成了GPU、 DSP和RISC的优点，支持8/16/32 bit定点和16/32 bit浮点计算，而且硬件上支持稀疏数据结构。此外，Myriad2中有两个RISC核以及video硬件加速器，可以同时处理多个视频流。2017年8月28日，Movidius宣布推出新一代VPU：Myriad X。与上一代Myriad2比，Myriad X将集成DNN加速器：神经计算引擎（Neural Compute Engine），支持浮点16bit和定点8bit。据称，DNN推理吞吐量能达到1TOPS，而理论运算量能达到4+ TOPS。Myriad X有四个128位VLIW矢量处理器，支持最新的LPDDR4，并且支持4K硬件编码，支持USB3.1和PCIe3.0。工艺上，使用TSMC 16nm。

Inuitive。一家以色列公司，提供3D图像和视觉处理方案，用于AR/VR、无人机等应用场景。Inuitive的下一代视觉处理器NU4000采用28nm工艺，选择使用CEVA的XM4 DSP，并集成了深度学习处理器和深度处理引擎等硬件加速器。

DeepVision。一家总部位于Palo Alto的start-up，为嵌入式设备设计和开发低功耗VPU，以支持深度学习、CNN以及传统的视觉算法，同时提供实时处理软件。

Visual Processing Unit

这里是visual，不是vision。ATI一开始称自家显卡上的芯片为VPU，后来见贤思齐，都改叫GPU了。

Video Processing Unit

视频处理器。处理动态视频而不是图像，例如进行实时编解码。

Vector Processing Unit

向量处理器。标量处理器、向量处理器、张量处理器，这是以处理器处理的数据类型进行的划分。现在的CPU已经不再是单纯的标量处理器，很多CPU都集成了向量指令，最典型的就是SIMD。向量处理器在超级计算机和高性能计算中，扮演着重要角色。基于向量处理器研发AI领域的专用芯片，也是很多公司的选项。例如，前面刚提到Movidius的Myriad2中，就包含了12个向量处理器。

Vision DSP

针对AI中的计算机视觉应用，各家DSP公司都发布了DSP的Vision系列IP。简单罗列如下：

CEVA的XM4，最新的XM6 DSP。除了可以连接支持自家的硬件加速器HWA（CEVA Deep Neural Network Hardware Accelerator )，也可以支持第三方开发的HWA。前面提到的Inuitive使用了XM4。可以参考“处理器IP厂商的机器学习方案 – CEVA”。
Tensilica（2013年被Cadence以3.8亿美元收购）的P5、P6，以及最新的C5 DSP。一个最大的特色就是可以用TIE语言来定制指令。前面微软的HPU中使用他家的DSP。可以参考“神经网络DSP核的一桌麻将终于凑齐了”。
Synopsys的EV5x和EV6x系列DSP。可以参考“处理器IP厂商的机器学习方案 – Synopsys”。
Videantis的v-MP4系列。Videantis成立于1997年，总部位于德国汉诺顿。v-MP4虽然能做很多机器视觉的任务，但还是传统DSP增强设计，并没有针对神经网络做特殊设计。

23、WPU

Wearable Processing Unit

一家印度公司Ineda Systems在2014年大肆宣传了一下他们针对IOT市场推出的WPU概念，获得了高通和三星的注资。Ineda Systems研发的这款“Dhanush WPU”分为四个级别，可适应普通级别到高端级别的可穿戴设备的运算需求，可以让可穿戴设备的电池达到30天的持续续航、减少10x倍的能耗。但是，一切似乎在2015年戛然而止，没有了任何消息。只在主页的最下端有文字显示，Ineda将WPU申请了注册商标。有关WPU的信息只有大概结构，哦，对了，还有一个美国专利。

Wisdom Processing Unit

智慧处理器。这个WPU听起来比较高大上，拿去用，不谢。不过，有点“脑白金”的味道。

24、XPU

2017年，在加州Hot Chips大会上，百度发布了XPU，这是一款256核、基于FPGA的云计算加速芯片。百度自研了AI芯片“昆仑”，瞄准云计算和边缘用例。该芯片采用三星的14nm制程，内存带宽为512GBps，每秒可运行260Tops，功率为100瓦，是百度为云计算、边缘计算和人工智能的设计的神经处理器架构XPU，它支持处理自然语言的预训练模型Ernie，相对传统的GPU/FPGA模型，推理速度可以加快3倍。

百度在自研深度学习平台Paddle（飞桨）上下了血本。目前Paddle Lite已支持百度XPU在x86和arm服务器（例如飞腾 FT-2000+/64）上进行预测部署。详情可查看Paddle Lite使用百度XPU预测部署。

25、YPU

暂无

26、ZPU

Zylin CPU

挪威公司Zylin的CPU的名字。为了在资源有限的FPGA上能拥有一个灵活的微处理器，Zylin开发了ZPU。ZPU是一种stack machine（堆栈结构机器），指令没有操作数，代码量很小，并有GCC工具链支持，被称为“The worlds smallest 32 bit CPU with GCC toolchain”。Zylin在2008年将ZPU在opencores上开源。有组织还将Arduino的开发环境进行了修改给ZPU用。

结束语

AI芯片厂商虽然推出了各式各样的自家产品，但是大厂的资金实力和技术积淀还是更胜一筹，所谓的独角兽也只是在融资上站稳脚跟，能否扭转盈亏还是要靠实际的产品说话。再过若干年，上述“xPU”还能存活多少都犹未可知。

ps：如果只想了解常用的“xPU”，看看这篇文章就可以了。

资讯详情

盘点2021年全球AI芯片，详解“xPU”，请收下最新最全的知识点

前言

1、APU

2、BPU

3、CPU

4、DPU

5、EPU

6、FPU

7、GPU

8、HPU

9、IPU

10、JPU

11、KPU

12、LPU

13、MPU

14、NPU

15、OPU

16、PPU

17、QPU

18、RPU

19、SPU

20、TPU

21、UPU

22、VPU

23、WPU

24、XPU

25、YPU

26、ZPU

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

盘点2021年全球AI芯片，详解“xPU”，请收下最新最全的知识点

前言

1、APU

2、BPU

3、CPU

4、DPU

5、EPU

6、FPU

7、GPU

8、HPU

9、IPU

10、JPU

11、KPU

12、LPU

13、MPU

14、NPU

15、OPU

16、PPU

17、QPU

18、RPU

19、SPU

20、TPU

21、UPU

22、VPU

23、WPU

24、XPU

25、YPU

26、ZPU

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录