资讯详情

盘点2021年全球AI芯片,详解“xPU”,请收下最新最全的知识点

前言

你一定听说过CPU、GPU,但是TPU、VPU、NPU、XPU…等待其他字母开头的xPU”呢?

AI概念几年前在世界各地流行起来,科技巨头们纷纷投资AI小公司也致力于芯片研发的概念AI浪潮融资,为了快速AI在市场上站稳脚跟,为了让市场和用户记住自己的产品,每个家庭都在芯片命名上下了一些功夫,不仅要独特,还要适合公司的产品,还要朗朗上口,容易记住。上述xPU命名方式深受各大厂商的喜爱。

AI芯片

本文从字母A到Z来盘点一下目前的各种xPU”命名AI芯片和芯片行业的各种xPU缩写,给大家提高知识。此外,除了xPU本文还扩展了一些命名方法xxP”方式的以Processor命名芯片或IP。

1、

APU是AMD作为一个处理器品牌,它首次在晶片上制作中央处理器和独立显示器核心,同时具有高性能处理器和最新独立显卡的处理性能。AMD传统集成在芯片上CPU和图形处理器GPU,这样主板上将不再需要北桥,任务可以灵活地在CPU和GPU间分配。AMD将这种异构结构称为加速处理单元,即APU。

2021年8月,AMD新款即将售出APU:5600G和5700G,任天堂Switch 以及 PS4中有使用。

顾名思义,声音处理器是处理声音数据的专用处理器。不多说,生产APU有很多芯片制造商。声卡里有。

2、

地平线机器人(Horizon Robotics)以BPU命名自己的AI芯片。地平线成立于2015年start-up,总部位于北京,目标是全球嵌入式人工智能领袖。未来,地平线芯片将直接应用于其主要产品,包括智能驾驶、智能生活和智能城市。地平线机器人的公司名称很容易被误解,认为它是一个机器人,但事实并非如此。地平线不是机器,而是人和人工智能的大脑。因此,它的处理器被命名为BPU。与国内外其他国家相比AI芯片start-up第一代地平线公司BPU相对保守TSMC的40nm工艺。BPU注册商标已被地平线申请,其他公司不打架BPU的主意了。

一个口号“21 世纪是生物学的世纪,无数有抱负的年轻人跳进了生物学领域的大坑。事实上,这句话需要这样理解21世纪其他学科的发展。例如,人脑神经系统的研究成果将得到促进AI发展领域,SNN结构是对人脑神经元的模拟。无论如何,随着时间的推移,坑总会被填满。不知道生物处理器什么时候会有质的发展。

生物特征识别现在已经不是纸上谈兵了。指纹识别是近期智能手机的标准,电影中的黑色技术虹膜识别也在手机上,声纹识别可以支付…然而,除了指纹识别外,还有特殊的指纹识别ASIC除了芯片,其他生物识别基本上都是sensor加通用cpu/dsp方案。无论如何,这些芯片没有被占用BPU或BRPU这个宝贵的位置。

3、

CPU中央处理器就不多说了。AI该公司将其芯片命名为CPU的。不过,CPU与AI处理器不冲突。

首先,很多公司AI它仍将用于处理器CPU控制调度。wave computing用的是Andes的CPU core;Mobileye用了好几个MIPS的CPU core;国内的某些AI芯片公司使用ARM的CPU core。

此外,在现有的移动市场AP中,在CPU另外,再集成一两个AI加速器IP(例如,视觉应用DSP,见VPU部分)也是一种趋势。2017 年,麒麟 970 第一次把 NPU 技术应用在手机里。我们今天看到的是,所有的手机芯片都必须有 AI 处理芯片,2020年麒麟9000的出现更是把AI移动处理器的性能大大提高。

另一种趋势是做高性能计算CPU不愿错过的公司AI例如,

  • Adapteva。一家做多核MIMD结构处理器公司。2016年tapeout的Epiphany V集成有1024个核。与之前的版本相比,针对deep learning并加密特定指令。
  • kalrayinc。多核并行处理器公司有数据中心和自动驾驶解决方案。第三代最近公布MPPA处理器“Coolidge计划,融资$26 Million。计划采用16nm FinFET集成80-160个工艺kalray 64-bit core,还有80-160个协处理器用于机器视觉处理和深度学习计算。

4、

作为Deep Learning以D开头命名的首字母AI芯片是一种很自然的思路。

深度学习处理器。DPU并不是哪家公司的专属术语。在学术圈,Deep Learning Processing Unit(或processor)常被提及ISSCC 2017新增的一个session的主题就是Deep Learning Processor。以DPU目标公司如下:

  • Deephi Tech(深鉴)。深鉴位于北京start-up,清华背景深厚的初创团队。基于深度学习开发FPGA神经网络处理器称为DPU。到目前为止,深鉴已经公开发布了两款DPU:亚里士多德架构和笛卡尔架构分别针对CNN以及DNN/RNN。虽然深鉴号称是基于做的FPGA然而,从公共渠道可以看到的招聘信息和非公息和非公共行业交流来看,芯片已经成为事实。
  • TensTorrent。一家位于Toronto的start-up,专门为深度学习和智能硬件设计的高性能处理器,技术人员来自NVDIA和AMD。

深度学习单元。Fujitsu(富士通)最近高调宣布自己AI芯片,命名为DLU。名字虽然没什么创意,但是可以看到DLU已被富士通标TM”,虽然TM也没啥用。可以在其发布的信息中看到,DLU的ISA重新设计,DLU许多小架构包含在许多小架构中DPU(Deep Learning Processing Unit)和几个大的master core(控制多个DPU和memory访问)。每个DPU还有16个DPE(Deep-Learning Processing Element),执行单位共128个SIMD指令。富士通预计将在2018财年内推出DLU。

深度学习加速器。2019年,英伟达 GitHub 上开源了 NVDLA 编译器的源代码,这是世界上首个软硬件推理平台的完整开源代码,给业界带来了不小的波澜。下图是NVDLA架构示意。

数据流处理器。创立于2010年的wave computing公司称其开发的深度学习加速处理器为Dataflow Processing Unit(DPU),应用于数据中心。Wave的DPU内集成1024个cluster。每个Cluster对应一个独立的全定制地图,每个地图Cluster8个算术单元和16个算术单元PE。其中,PE采用异步逻辑设计,无时钟信号,由数据流驱动,称为Dataflow Processor的缘由。使用TSMC 16nm FinFET工艺,DPU die面积大概400mm^2,内部单口sram至少24MB,功耗约为200W,等效频率可达10GHz,性能可达181TOPS。

数据存储处理器。深圳大普微电子开发固态硬盘SSD主控芯片。SSD主控也是一个很大的市场,国内有很多公司在这个方向上奋斗。

数字信号处理器。芯片行业的人是对的DSP设计并不陌生DSP也有很多公司,TI,Qualcomm,CEVA,Tensilica,ADI,Freescale,Cadence等等,都是大公司,这里不多介绍。相比于CPU,DSP提高数字计算的性能,如增加指令并行度SIMD、VLIW、SuperScalar等技术。面对AI新的领域计算方法(例如CNN、DNN等)挑战,DSP公司也在不断改造自己DSP,推出支持神经网络计算的芯片系列。在后面VPU这部分将被介绍Vision应用的DSP。和CPU一样,DSP长期以来,技术一直掌握在外国公司手中,清华大学微电子研究所等国内科研机构也不乏努力工作的科研机构Lily DSP(VLIW架构,独立编译),国防科技大学YHFT-QDSP和矩阵2000。但也有臭名昭著的汉芯。

5、

Emoshape 这两年才推出EPU的,号称是全球首款情绪合成(emotion synthesis)引擎,能让机器人有情绪。但是,从官方渠道来看,EPU它本身并不复杂,也不需要基于任务量巨大的神经网络计算。MCU芯片。结合应用API以及云增强学习算法,EPU可以机器能够在情绪上了解它们所读或所看的内容。结合自然语言生成(NLG)及WaveNet技术,可以让机器个性化的表达各种情绪。例如,一部能够朗读的Kindle,其语音将根据所读的内容充满不同的情绪状态。

6、

先说一个最常用的FPU缩写:Floating Point Unit。浮点单元,不多做解释了。现在高性能的CPU、DSP、GPU内都集成了FPU做浮点运算。

7、

图形处理器。GPU原来最大的需求来自PC市场上各类游戏对图形处理的需求,随着AI的火热,在深度学习并行训练和推理上应用十分广泛。但是随着移动设备的升级,在移动端也逐渐发展起来。

  • NVIDIA。说起GPU,毫无疑问现在的老大是NVIDIA。这家成立于1993年的芯片公司一直致力于设计各种GPU:针对个人和游戏玩家的GeForce系列,针对专业工作站的Quadro系列,以及针对服务器和高性能运算的Tesla系列。随着AI的发展,NVIDIA在AI应用方面不断发力,推出了针对自动驾驶的DRIVE系列,以及专为AI打造的VOLTA架构。特别提一下VOLTA,今年5月份,NVIDIA发布的Tesla V100采用TSMC 12nm工艺,面积竟然815mm^2,号称相关研发费用高达30亿美元。得益于在AI领域的一家独大,NVIFIA的股价在过去一年的时间里狂涨了300%。最后,也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器。
  • AMD。这几年NVIDIA的火爆,都快让大家忘了AMD的存在了。AMD是芯片行业中非常古老的一家芯片公司,成立于1969年,比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司。AMD新出的MI系列GPU将目标对准AI。

在移动端市场,GPU被三家公司瓜分,但是也阻止不了新的竞争者杀入。

  • ARM家的Mali。Mali不是ARM的自创GPU品牌,来自于ARM于2006年收购的Falanx公司。Falanx最初的GPU是面向PC市场的,但是根本就无法参与到NVIDIA和ATI的竞争中去,于是转向移动市场;并且Falanx最初的GPU的名字也不是Mali,而是Maliak,为了好记,改为Mali,来自罗马尼亚文,意思是small,而不是我们熟悉的吃蘑菇救公主的超级玛丽(SuperMALI)。
  • Imagination的PowerVR。主要客户是苹果,所以主要精力都在支持苹果,对其他客户的支持不足。但是,苹果突然宣布放弃PVR转为自研,对Imagination打击不小,股价大跌六成。Imagination现在正在寻求整体出售,土财快追,但是,美国未必批。
  • Qualcomm的Adreno。技术来自于AMD收购ATI后出售的移动GPU品牌Imageon。有意思的是,名字改自于ATI的知名GPU品牌Radeon;
  • VeriSilicon的Vivante。Vivante(图芯)是一家成立于2004年的以做嵌入式GPU为主的芯片公司,于2015年被VSI收购。Vivante的市场占有率较低。这里多加一段小八卦,Vivante的创始人叫戴伟进,VSI的创始人叫戴伟民,一句话对这次收购进行总结就是,戴家老大收购了戴家老二。哦,对了,戴家还有一个三妹戴伟立,创立的公司名号更响亮:Marvell。
  • Samsung的。。。哦,三星没有自己的GPU。2021年中旬,三星表示即将推出的三星Exynos旗舰处理器中的GPU将基于AMD最新的RDNA2架构打造,这标志着新GPU首次登陆移动平台。

再简单补充国内的两家开发GPU的公司:

  • 上海兆芯。兆芯是VIA(威盛)分离出来的。兆芯于2016年针对移动端出了一款GPU芯片ZX-2000,名字有点简单直接。主要技术来源于威盛授权,GPU核心技术来自收购的美国S3 Graphics。
  • 长沙景嘉微电子。于2014年推出一款GPU芯片JM5400。这是一家有国防科大背景的公司,与龙芯为合作伙伴,芯片主要应用在军用飞机和神舟飞船上。

图形流处理器。这是ThinCI(取意think-eye)提出的缩写。ThinCI是一家致力于打造deep learning和computer vision芯片的start-up,由4名Intel前员工创立于2010年,总部在Sacramento,在印度也有研发人员。ThinCI的视觉芯片瞄准了,投资方有世界顶级汽车零部件供应商公司日本电装DENSO。在刚结束的hotchip会议上,ThinCI介绍了他们的GSP,使用了多种结构性技术来实现任务级、线程级、数据级和指令级的并行。GSP使用TSMC 28nm HPC+工艺,功耗预计2.5W。

8、

全息处理器。Microsoft专为自家Hololens应用开发的。第一代HPU采用28nm HPC工艺,使用了24个Tensilica DSP并进行了定制化扩展。HPU支持5路cameras、1路深度传感器(Depth sensor)和1路动作传感器(Motion Sensor)。Microsoft 在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2将搭载一颗支持DNN的协处理器,专门用于在本地运行各种深度学习。指的一提的是,HPU是一款为特定应用所打造的芯片,这个做产品的思路可以学习。据说Microsoft评测过Movidius(见VPU部分)的芯片,但是觉得无法满足算法对性能、功耗和延迟的要求,所有才有了HPU。

9、

智能处理器。以IPU命名芯片的有两家公司。

  • Graphcore。Graphcore公司的IPU是专门针对graph的计算而打造的。稍微说说Graph,Graphcore认为Graph是知识模型及相应算法的非常自然的表示,所以将Graph作为机器智能的基础表示方法,既适用于神经网络,也适用于贝叶斯网络和马尔科夫场,以及未来可能出现的新的模型和算法。Graphcore的IPU一直比较神秘,直到近期才有一些细节的信息发布。比如:16nm,同构多核(>1000)架构,同时支持training和inference,使用大量片上sram,性能优于Volta GPU和TPU2,预计2017年底会有产品发布,等等。多八卦一点,Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭。关于IPU更细节的描述,可以看唐博士的微信公号的一篇文章,传输门:解密又一个xPU:Graphcore的IPU。

  • Mythic。另外一家刚融了$9.3 million的start-up公司Mythic也提到了IPU:“Mythic’s intelligence processing unit (IPU) adds best-in-class intelligence to any device”。和现在流行的数字电路平台方案相比,Mythic号称可以将功耗降到1/50。之所以这么有信心,是因为他们使用的“processing in memory”结构。

图像认知处理器ICP,加拿大公司CogniVue开发的用于视觉处理和图像认知的IP。跑个题,CogniVue一开始是Freescale的IP供应商,后来于2015年被Freescale收购以进一步加强ADAS芯片的整合开发;随后,Freescale又被NXP 118亿美元拿下;还没完,高通近400亿美元吞并了NXP。 现在NXP家的ADAS SOC芯片S32V系列中,就用到了两个ICP IP。

图像处理器。一些SOC芯片中将处理静态图像的模块称为IPU。但是,IPU不是一个常用的缩写,更常见的处理图像信号的处理器的缩写为下面的ISP。

图像信号处理器。这个话题也不是一个小话题。ISP的功能,简单的来说就是处理camera等摄像设备的输出信号,实现降噪、Demosaicing、HDR、色彩管理等功能。以前是各种数码相机、单反相机中的标配。Canon、Nikon、Sony等等,你能想到的出数码相机的公司几乎都有自己的ISP。进入手机摄影时代,人们对摄影摄像的要求也越来越高,ISP必不可少。说回AI领域,camera采集图像数据,也要先经过ISP进行处理之后,再由视觉算法(运行在CPU、GPU或ASIC加速器上的)进行分析、识别、分类、追踪等进一步处理。也许,随着AI技术发展,ISP的一些操作会直接被end-2-end的视觉算法统一。

暂无

11、

嘉楠耘智(canaan)号称2017年将发布自己的AI芯片KPU。嘉楠耘智要在KPU单一芯片中集成人工神经网络和高性能处理器,主要提供异构、实时、离线的人工智能应用服务。这又是一家向AI领域扩张的不差钱的矿机公司。作为一家做矿机芯片(自称是区块链专用芯片)和矿机的公司,嘉楠耘智累计获得近3亿元融资,估值近33亿人民币。2020年,嘉楠耘智公司内部出了问题,财报很难看。

另:Knowledge Processing Unit这个词并不是嘉楠耘智第一个提出来的,早在10年前就已经有论文和书籍讲到这个词汇了。只是,现在嘉楠耘智将KPU申请了注册商标。

12、

暂无

13、

微处理器。MPU,CPU,MCU,这三个概念差不多,知道就行了。

题外话:并不是所有的xPU都是处理器,比如有个MPU,是Memory Protection Unit的缩写,是内存保护单元,是ARM核中配备的具有内存区域保护功能的模块。

14、

与GPU类似,神经网络处理器NPU已经成为了一个通用名词,而非某家公司的专用缩写。由于神经网络计算的类型和计算量与传统计算的区别,导致在进行NN计算的时候,传统CPU、DSP甚至GPU都有算力、性能、能效等方面的不足,所以激发了专为NN计算而设计NPU的需求。这里罗列几个以NPU名义发布过产品的公司,以及几个学术圈的神经网络加速器。

  • 中星微电子(Vimicro)的星光智能一号。中星微于2016年抢先发布了“星光智能一号”NPU。但是,这不是一个专为加速Neural Network而开发的处理器。业内都知道其内部集成了多个DSP核(其称为NPU core),通过SIMD指令的调度来实现对CNN、DNN的支持。以这个逻辑,似乎很多芯片都可以叫NPU,其他以DSP为计算核心的SOC芯片的命名和宣传都相对保守了。

  • Kneron。这是一家位于San Diego的start-up公司,针对IOT应用领域做deep learning IP开发。Kneron开发的NPU实现了39层CNN,28nm下的功耗为0.3W,能效200GFLOPs/W。其主页上给出的另一个能效数据是600GOPs/W。此外,Kneron同时也在FPGA开发云端的硬件IP。据可靠消息,Kneron也要在中国大陆建立研发部门了,地点涉及北京、上海、深圳。

  • VeriSilicon(芯原)的VIP8000。VSI创立于2001年。VSI于今年5月以神经网络处理器IP的名义发布了这款代号VIP8000的IP。从其公布的消息“VeriSilicon’s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second”来看,这款芯片使用的并不是其DSP core,而是内置了其2015年收购的Vivante的GPU core。按照VSI的说法,VIP8000在16nm FinFET工艺下的计算力超过3 TMAC/s,能效高于1.5 GMAC/s/mW。

  • DNPU-Deep Neural-Network Processing Unit。DNPU来自于KAIST在ISSCC2017上发表的一篇文章。我把DNPU当做是NPU的一种别名,毕竟现在业内做的支持神经网络计算的芯片没有只支持“非深度”神经网络的。关于DNPU可以参考“从ISSCC Deep Learning处理器论文到人脸识别产品”。
  • Eyeriss。MIT的神经网络项目,针对CNN的进行高能效的计算加速设计。
  • Thinker。清华微电子所设计的一款可重构多模态神经计算芯片,可以平衡CNN和RNN在计算和带宽之间的资源冲突。

神经/神经形态处理器。这和上面的神经网络处理器还有所不同。而且,一般也不以“处理器”的名字出现,更多的时候被称为“神经形态芯片(Neuromorphic Chip)”或者是“类脑芯片(Brain-Inspired Chip)”。这类AI芯片不是用CNN、DNN等网络形式来做计算,而是以更类似于脑神经组成结构的SNN(Spiking Neural Network)的形式来进行计算。随便列几个,都不是“xPU”的命名方式。

  • Qualcomm的Zeroth。高通几年前将Zeroth定义为一款NPU,配合以软件,可以方便的实现SNN的计算。但是,NPU似乎不见了踪影,现在只剩下了同名的机器学习引擎Zeroth SDK。
  • IBM的TrueNorth。IBM2014年公布的TrueNorth。在一颗芯片上集成了4096个并行的core,每个core包含了256个可编程的神经元neurons,一共1百万个神经元。每个神经元有256个突触synapses,共256 Mlillion。TrueNorth使用了三星的28nm的工艺,共5.4 billion个晶体管。
  • BrainChip的SNAP(Spiking Neuron Adaptive Processor )。已经有了赌场的应用。
  • GeneralVision的CM1K、NM500 chip,以及NeuroMem IP。这家公司的CM1K芯片有1k个神经元,每个神经元对应256Byte存储。虽然无法和强大的TrueNorth相提并论,但是已有客户应用。并且,提供BrainCard,上面有FPGA,并且可以直接和Arduino以及Raspberry Pi连接。
  • Knowm。这家start-up在忆阻器(memristor)技术基础上做“processing in memory”的AI芯片研发。不过,与前面提到的Mythic(IPU部分)不同的是,Known做的是类脑芯片。Knowm所用的关键技术是一种称为热力学内存(kT-RAM)的memory,是根据AHaH理论(Anti-Hebbian and Hebbian)发展而来。
  • Koniku。成立于2014年的start-up,要利用生物神经元来做计算,”Biological neurons on a chip”。

15、

。光流处理器。有需要用专门的芯片来实现光流算法吗?

不知道,但是,用ASIC IP来做加速应该是要的。

16、

物理处理器。要先解释一下物理运算,就知道物理处理器是做什么的了。物理计算,就是模拟一个物体在真实世界中应该符合的物理定律。具体的说,可以使虚拟世界中的物体运动符合真实世界的物理定律,可以使游戏中的物体行为更加真实,例如布料模拟、毛发模拟、碰撞侦测、流体力学模拟等。开发物理计算引擎的公司有那么几家,使用CPU来完成物理计算,支持多种平台。

Ageia于2006年发布了PPU芯片PhysX,还发布了基于PPU的物理加速卡,同时提供SDK给游戏开发者。2008年被NVIDIA收购后,PhysX加速卡产品被逐渐取消,现在物理计算的加速功能由NVIDIA的GPU实现,PhysX SDK被NVIDIA重新打造。

17、

量子处理器。量子计算机也是近几年比较火的研究方向。作者承认在这方面所知甚少。可以关注这家成立于1999年的公司D-Wave System。DWave大概每两年可以将其QPU上的量子位个数翻倍一次。

18、

阻抗处理单元RPU。这是IBM Watson Research Center的研究人员提出的概念,真的是个处理单元,而不是处理器。RPU可以同时实现存储和计算。利用RPU阵列,IBM研究人员可以实现80TOPS/s/W的性能。

光线追踪处理器。Ray tracing是计算机图形学中的一种渲染算法,RPU是为加速其中的数据计算而开发的加速器。现在这些计算都是GPU的事情了。

19、

流处理器。流处理器的概念比较早了,是用于处理视频数据流的单元,一开始出现在显卡芯片的结构里。可以说,GPU就是一种流处理器。甚至,还曾经存在过一家名字为“Streaming Processor Inc”的公司,2004年创立,2009年,随着创始人兼董事长被挖去NVIDIA当首席科学家,SPI关闭。

语音识别处理器,SPU或SRPU。这个缩写还没有公司拿来使用。现在的语音识别和语义理解主要是在云端实现的,比如科大讯飞。科大讯飞最近推出了一个翻译机,可以将语音传回云端,做实时翻译,内部硬件没有去专门了解。和语音识别相关的芯片如下:

  • 启英泰伦(chipintelli)。于2015年11月在成都成立。该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片,可实现单芯片本地离线大词汇量识别。

  • MIT项目。今年年初媒体爆过MIT的一款黑科技芯片,其实就是MIT在ISSCC2017上发表的paper里的芯片,也是可以实现单芯片离线识别上k个单词。可以参考阅读“分析一下MIT的智能语音识别芯片”。
  • 云知声(UniSound)。云知声是一家专攻智能语音识别技术的公司,成立于2012年6月,总部在北京。云知声获得了3亿人民币战略投资,其中一部分将用来研发其稍早公布的AI芯片计划,命名“UniOne”。据官方透漏,UniOne将内置DNN处理单元,兼容多麦克风、多操作系统。并且,芯片将以模组的形式提供给客户,让客户直接拥有一整套云端芯的服务。

20、

Google的张量处理器。TPU项目开始于2014年。2016年AlphaGo打败李世石,2017年AlphaGo打败柯洁,两次人工智能催化事件给芯片行业带来的冲击无疑就是TPU的出现和解密。

Google在2017年5月的开发者I/O大会上正式公布了TPU2,又称Cloud TPU。相比于TPU v1,TPU v2既可以用于training,又可以用于inference。TPU v3是在TPU v2的基础上做了进一步的性能提升,可参考下图。

具体可以看这篇知乎文章浅谈Google TPU。

21、

暂无

22、

视觉处理器VPU也有希望成为通用名词。作为现今最火热的AI应用领域,计算机视觉的发展的确能给用户带来前所未有的体验。为了处理计算机视觉应用中遇到的超大计算量,多家公司正在为此设计专门的VPU。 

  • Movidius(已被Intel收购)。Movidius成立于2006年,总部位于硅谷的San Mateo,创始人是两个爱尔兰人,所以在爱尔兰有分部。Movidius早期做的是将旧电影转为3D电影的业务,后期开始研发应用于3D渲染的芯片,并开始应用于计算机视觉应用领域(这说明:1,芯片行业才是高技术含量、高门槛、高价值的行业;2,初创公司要随着发展调整自己的战略)。Movidius开发的Myriad系列VPU专门为计算机视觉进行优化,可以用于 3D 扫描建模、室内导航、360°全景视频等更前沿的计算机视觉用途。例如,2014年,谷歌的Project Tango项目用 Myriad 1帮助打造室内三维地图;2016年,大疆的“精灵4”和“御”都采用了Movidius 的 Myriad 2芯片。采用TSMC 28nm工艺的Myriad2中集成了12个向量处理器SHAVE (Streaming Hybrid Architecture Vector Engine)。按照Movidius的说法,SHAVE是一种混合型流处理器,集成了GPU、 DSP和RISC的优点,支持8/16/32 bit定点和16/32 bit浮点计算,而且硬件上支持稀疏数据结构。此外,Myriad2中有两个RISC核以及video硬件加速器,可以同时处理多个视频流。2017年8月28日,Movidius宣布推出新一代VPU:Myriad X。与上一代Myriad2比,Myriad X将集成DNN加速器:神经计算引擎(Neural Compute Engine),支持浮点16bit和定点8bit。据称,DNN推理吞吐量能达到1TOPS,而理论运算量能达到4+ TOPS。Myriad X有四个128位VLIW矢量处理器,支持最新的LPDDR4,并且支持4K硬件编码,支持USB3.1和PCIe3.0。工艺上,使用TSMC 16nm。

  • Inuitive。一家以色列公司,提供3D图像和视觉处理方案,用于AR/VR、无人机等应用场景。Inuitive的下一代视觉处理器NU4000采用28nm工艺,选择使用CEVA的XM4 DSP,并集成了深度学习处理器和深度处理引擎等硬件加速器。

  • DeepVision。一家总部位于Palo Alto的start-up,为嵌入式设备设计和开发低功耗VPU,以支持深度学习、CNN以及传统的视觉算法,同时提供实时处理软件。

这里是visual,不是vision。ATI一开始称自家显卡上的芯片为VPU,后来见贤思齐,都改叫GPU了。

视频处理器。处理动态视频而不是图像,例如进行实时编解码。

向量处理器。标量处理器、向量处理器、张量处理器,这是以处理器处理的数据类型进行的划分。现在的CPU已经不再是单纯的标量处理器,很多CPU都集成了向量指令,最典型的就是SIMD。向量处理器在超级计算机和高性能计算中,扮演着重要角色。基于向量处理器研发AI领域的专用芯片,也是很多公司的选项。例如,前面刚提到Movidius的Myriad2中,就包含了12个向量处理器。

针对AI中的计算机视觉应用,各家DSP公司都发布了DSP的Vision系列IP。简单罗列如下:

  • CEVA的XM4,最新的XM6 DSP。除了可以连接支持自家的硬件加速器HWA(CEVA Deep Neural Network Hardware Accelerator ),也可以支持第三方开发的HWA。前面提到的Inuitive使用了XM4。可以参考“处理器IP厂商的机器学习方案 – CEVA”。
  • Tensilica(2013年被Cadence以3.8亿美元收购)的P5、P6,以及最新的C5 DSP。一个最大的特色就是可以用TIE语言来定制指令。前面微软的HPU中使用他家的DSP。可以参考“神经网络DSP核的一桌麻将终于凑齐了”。
  • Synopsys的EV5x和EV6x系列DSP。可以参考“处理器IP厂商的机器学习方案 – Synopsys”。
  • Videantis的v-MP4系列。Videantis成立于1997年,总部位于德国汉诺顿。v-MP4虽然能做很多机器视觉的任务,但还是传统DSP增强设计,并没有针对神经网络做特殊设计。

23、

一家印度公司Ineda Systems在2014年大肆宣传了一下他们针对IOT市场推出的WPU概念,获得了高通和三星的注资。Ineda Systems研发的这款“Dhanush WPU”分为四个级别,可适应普通级别到高端级别的可穿戴设备的运算需求,可以让可穿戴设备的电池达到30天的持续续航、减少10x倍的能耗。但是,一切似乎在2015年戛然而止,没有了任何消息。只在主页的最下端有文字显示,Ineda将WPU申请了注册商标。有关WPU的信息只有大概结构,哦,对了,还有一个美国专利。

智慧处理器。这个WPU听起来比较高大上,拿去用,不谢。不过,有点“脑白金”的味道。

24、

2017年,在加州Hot Chips大会上,百度发布了XPU,这是一款256核、基于FPGA的云计算加速芯片。百度自研了AI芯片“昆仑”,瞄准云计算和边缘用例。该芯片采用三星的14nm制程,内存带宽为512GBps,每秒可运行260Tops,功率为100瓦,是百度为云计算、边缘计算和人工智能的设计的神经处理器架构XPU,它支持处理自然语言的预训练模型Ernie,相对传统的GPU/FPGA模型,推理速度可以加快3倍。

百度在自研深度学习平台Paddle(飞桨)上下了血本。目前Paddle Lite已支持百度XPU在x86和arm服务器(例如飞腾 FT-2000+/64)上进行预测部署。详情可查看Paddle Lite使用百度XPU预测部署。

25、

暂无

26、

挪威公司Zylin的CPU的名字。为了在资源有限的FPGA上能拥有一个灵活的微处理器,Zylin开发了ZPU。ZPU是一种stack machine(堆栈结构机器),指令没有操作数,代码量很小,并有GCC工具链支持,被称为“The worlds smallest 32 bit CPU with GCC toolchain”。Zylin在2008年将ZPU在opencores上开源。有组织还将Arduino的开发环境进行了修改给ZPU用。

AI芯片厂商虽然推出了各式各样的自家产品,但是大厂的资金实力和技术积淀还是更胜一筹,所谓的独角兽也只是在融资上站稳脚跟,能否扭转盈亏还是要靠实际的产品说话。再过若干年,上述“xPU”还能存活多少都犹未可知。

ps:如果只想了解常用的“xPU”,看看这篇文章就可以了。

标签: systems多相管路传感器a系列处理器晶体管

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台