CSDN特约撰稿人 | 文钊
6月13日,阿里云发布了新一代云数据中心处理器CIPU(Cloud infrastructure Processing Units ),这是为新云数据中心设计的专用处理器,未来将被取代CPU成为云计算的控制和加速中心,被业内人士视为定义下一代云计算标准的开创性产品。
近20年来,随着互联网、大数据、云计算和物联网的发展,数据中心的计算架构经历了快速的演变。新兴的互联网和云计算公司逐渐成长为行业巨头,取代了传统OEM制造商已成为数据中心领域话语权的领导者,引领行业产品和技术的不断进步。其中,以AWS、Azure、阿里云这3A云计算公司是最重要的驱动力之一,几乎每一次技术变革都有这些公司的影子。在我看来,数据中心的计算架构至少经历了三个大阶段。
2006年AWS发布了EC2和S三、两款产品,是业界公认的云计算大幕拉开的标志性事件。2009年,阿里云,Azure在看到云计算的潜力后,也相继入局。当时,Intel CPU通过VT-x技术实现了CPU以及内存的硬件虚拟化,通过VT-d以及PCIe SR-IOV等技术实现了IO接口虚拟化。彼时,AWS底层虚拟化技术仍然是开源的Xen,只有16台主流2路服务器HT core。而这一发展就是近十年。
随着4G随着网络的发展,互联网公司遍地开花,云计算公司的业务蓬勃发展。随着越来越多的客户在服务器上运行,workload云计算公司越来越丰富,不断从客户的使用中学习经验,完善产品。最终目标是使计算产品朝着物理机器的性能和安全方向发展,为用户创造良好的云环境。
在计算能力方面,AWS、Azure、结合云用户的负载和需求,阿里云等公司从2015年开始针对数据中心CPU做一系列性能客户更大规格实例能力的要求,做一系列定制,AWS C4定制了10个核心haswell-ep”Xeon E5-2666 v3处理器,比较标准高主频CPU型号能力高25%。
在网络能力方面,2013年AWS的C3实例通过虚拟网络直接通过虚拟网络VM(SR-IOV) 支持Enhanced Network将带宽增加20%,时延减少50%。
因为虚拟化还在主机上运行,所以需要部分CPU和内存资源去运行传统的“Dom所以我们会发现,AWS的C4、R4等haswell、broadwell实例都存在4c/12G、8c/24G不同的资源不能出售,这就是我们所谓的数据中心税,在那里CPU在核心数较少的时代,10%-30%的资源不能出售,一种巨大的成本浪费。
随着客户性能要求的提高和网络(10G->25G)、存储容量的发展,网络vswitch和存储越来越成为云计算场景CPU资源消耗的两种背景任务。在传统模式下,网络和存储的性能非常依赖于主机侧CPU摩尔定律的发展在2014-2020年实际上受到了很大的挑战,CPU核心数增长缓慢,IPC提升也是有限的,只靠主机侧来提升网络和存储性能。CPU核数越多,频率越高,成本太大-可销售CPU资源减少,由频率和功耗增加引起的额外加热Opex(运营费用)成本难以接受。在此过程中Intel甚至想到了一些从CPU例如,允许一些层次的解决方案CPU跑在更高的P1频率和Turbo频率技术,但毕竟不是令人满意的解决方案。
所以每个家庭都在寻找更好的解决方案:
在2017年10月的云栖大会上,阿里云基于神龙架构发布了神龙架构CPU FPGA方案,从支持裸金属的虚拟化,到超越物理机器的裸金属服务器,再到第二代龙实现一套软硬件,三种服务(裸金属服务器) 虚拟机服务 解决了虚拟机和裸金属分池的问题,性能层面也实现了虚拟机性能接近裸金属;第三代和第四代实现了24M、50M的PPS在解决数据中心税的同时,能力实现了性能的巨大飞跃。
一个月后,AWS推出了Nitro系统。基于AWS收购的Annapurna公司研发的Arm架构的AL72400芯片制成网络和存储offload的Nitro VPC卡和Nitro EBS卡,以及本地存储的InstanceStorage卡。正是Nitro当所有服务器硬件的主从关系都发生变化时,架构就会改变Dom0全部Offload到达网卡后,主处理逻辑全部在智能网卡,主从关系也需要逆转。因此,智能网卡成为主管节点,服务器上的其他部件成为服务节点。
AWS的C实例提到新的 EC2 由于移除了主机的系统软件组件,虚拟化引擎将提供更稳定的性能、更强的计算能力和内存能力(host system software components)。所以,我们的 C5 例子可以提供一些超大版本(如 c5.x18xlarge),基本上,整个主机的资源用户都可以使用。之前的 C3 和 C4 例子已经删除了一些软件组件 VPC 和 EBS 功能转移到 AWS 在自己设计的硬件上。由于不需要处理网络和存储的数据处理任务,因此该硬件允许虚拟化引擎以最小化的体积运行。”至此,AWS解决了数据中心税问题,但性能只有3M PPS,之后推出的基于16c Arm A72架构的100G Nitro进一步支持网卡EFA实现更低的延迟,更高的可靠性和3倍PPS提高性能,基本解决性能问题。
微软的Azure考虑到可编程性、性能和效率的权衡,他们也看到了类似的问题。FPGA的自定义Azure SmartNIC将主机网络卸载到硬件解决方案中。然而,这只是网络的卸载和加速。存储和控制面似乎仍在主机侧面运行,最新基于Intel Icelake的实例EDv5系列E104id v5 104c/672G内存,数字至少有24c占用额外资源。
阿里云神龙架构,AWS Nitro在JD.COM、腾讯、字节等公司的领导下,也采用了类似的架构来构建自己的公共云计算服务,数据中心计算架构的中心开始倾向于智能网卡。
有趣的是,由于网卡的能力越来越强(以及各种),这一趋势也深受作者服务器架构领域的影响PCIe IO设备的广泛应用),传统服务器后出线架构难以有效散热位于服务器后端的网卡设备。阿里巴巴的自主研发服务器首先推动了大量从后出线到前出线的架构演变,实现了更高的散热效率。演变为100铺平G以及未来更高带宽网络的道路。其他国内互联网公司的服务器架构也转向了前出线架构。
随着技术的发展,用户需求日益多样化。AMD数据中心芯片,Arm数据中心芯片的架构给用户带来了更多的选择;异构加速芯片也百花齐放,FPGA存储,local SSD用于cache,用于高性能数据库应用、系统可靠性和安全性、加解密能力等。
通过云呈现所有需求,呼吁新一代计算系统的诞生。
在云峰会上,阿里云发布了云基础设施处理器CIPU,有望替代CPU成为下一代云计算架构系统的控制和加速中心。
CIPU是一种新形态的处理结构,将传统通用计算单元、满足特定工作负载的加速计算单元、以及满足网络和存储功能卸载的加速单元进行高速互联协调,组合成一个完整的分布式异构算力模块,高效满足复杂多变的云上数据中心算力场景。CIPU网络层面的网络设备硬件虚拟化、网络转发硬件加速、链路硬件加解密、eRDMA技术包容性;存储层面的硬件虚拟化、硬件加速和链路的硬件加解密能力;具有硬件层面的安全性和隔离性。
据阿里云透露,CIPU结合计算,可快速接入不同类型资源的服务器,带来计算能力的0损耗,以及硬件级安全加固隔离;CIPU结合存储,硬件加速存算分离架构的块存储接入,云盘存储IOPS长尾时延最高可达300万,减少50%;CIPU结合网络,可以加速高带宽物理网络的硬件,构建大规模弹性RDMA高性能网络的最低延迟可达5us。
未来30年,用户需求驱动CIPU在高性能、低延迟、高稳定性和安全性和安全性;CIPU架构也会不断迭代降低自身成本,比如在性能要求低的场景中,通过Multihost架构实现CIPU池化大大降低了成本分摊;设计的高可用性和稳定性通过一些具有相对固化功能的芯片来实现。
CIPU核心优势是分散架构,不再是传统的CPU既保留了核心CPU结构的灵活性和可扩展性,在当前各种先进包装技术的支持下,未来有更多的想象空间。
云计算的发展一直以用户为中心,通过不断的技术迭代解决云使用过程中遇到的各种问题。我们有理由期待CIPU在以新一代数据中心为代表的计算架构下,用户和互联网的创新将以更快的速度与云计算相结合,不断推动技术变革。未来来了!