作者:奇怪摩尔 Kiwimoore
ChatGPT 降生一年后,以Sora为代表的 AGI 完成突破性发展,再度引爆了高性能计较市场。面临以天为单元飞速迭代的算力需要,以及单个处理器功能的增进逆境(Scale up),促使企业转向扩大计较集群范围,踏上Scale out 之路。从此,行业所面对的焦点挑衅也从“单个芯片-集群”,“算力-互联”改变。
该系列产物包括“高性能互联芯粒IO Die、高性能互联底座 Kiwi 3D Base Die、UCIe 规范 Die2Die IP以及网络加快芯粒NDSA Family”,周全遮盖片内、片间直至网间的互联场景。基于IO Die,奇怪摩尔及分工火伴Ventana发布配合推出了环球首款服务器级的RISC-V CPU;同时,奇怪摩尔也基于Base Die宣布了环球首款3DIC AI芯片“AI Booster”。
“在Deep Learning、大模子时期激增的算力需要、摩尔定律放缓、封装手艺演进”等多种要素的配合感化下,Chiplet和IO Die为代表的互联芯粒因在良率、进步前辈制程解耦、复用才能等方面所显示出的上风,成为了汗青的抉择。
这一愿景依赖于模子创新和无尽的算力需要。往常,从微软到google,从阿里到字节跳动,万卡集群俨然成为大模子锻炼的标配。想支持更大的模子,算力根底办法和出产体式格局必需同步改变。起首,异构加快和超大范围平台,使更大范围的集群设想成为大概;其次,
同时,经由过程硬件可设置,软件可编程的灵巧软硬件架构,可以或许餍足客户对庞杂营业场景的多样化需要。得益于Chiplet、RISC-V和FPGA的灵巧组合,Kiwi NDSA 卓越的均衡了通用与公用,功能和本钱间的抵触。
作为环球首批200/400G的高性能FPGA RDMA网卡,“NDSA-RN-F”具有极高的集群扩大才能,能够大幅晋升集群节点间的东西向流量交互服从,使得更大范围的集群设想成为大概。同时领有us级超低延时,支撑约数十 MQP高并发,功能远超同类FPGA产物,并媲美环球标杆 ASIC产物。
其功能更加微弱,除带宽升级到800G以外,延时也降至ns级,并支撑数十GB的超大范围数据包,性能将逾越今朝环球标杆ASIC产物。
网间互联的瓶颈与痛点,并不是为云办事厂商独占。存算一体的环境中,互联芯粒能无效晋升体系功能、集成度、可扩展性和可靠性。亿铸科技副总裁李明暗示,AI大算力芯片合作焦点正逐渐转向 “存储、算力,破除墙”等挑衅。存算一体在破除“存储墙”方面拥有天赋上风。亿铸致力于连系存算一体+Chiplet芯粒上风,在AI算力芯片家当款式的基础上,进献更具性价比、能效比、算力进展空间的AI大算力芯片进展新门路。
芯片间互联场景,受AI等各类大算力场景的驱动,计较架构将从异构计较进一步走向多种异构融会的超异构并行计较,片间互联瓶颈进一步凸显。经由过程RDMA和D2D手艺,在芯片间搭建了高速数据互换网络,可完成近TB/s的超高速数据传输,其功能达到环球当先程度,餍足AI芯片关于片间互换不息增进的需要。
Die间互联:Die-to-Die IP
互联速率高达 32GT/s,延时低至数nS。周全支撑UCIe、CXL、Streaming等支流和谈,即插即用;同时支撑规范封装/进步前辈封装等多种封装形状。
陈健先容,UCIe 最新1.1规范在1.0规范基础上进行了全方面的进级,此中包孕汽车行业加强特点,全栈流和谈,封装本钱优化和测试认证。作为构建开放芯粒生态的规范构造,UCIe 将经由过程各方面的起劲促进Chiplet生态的进展和成熟。
宏观层面,在摩尔定律放缓后台继续晋升单个芯片设想范围及能效,片内互联手艺制造了新的工程造诣。其基于高性能互联网络Kiwi Fabric,可高效连贯调理海量高速节点完成多Die间高带宽、低延时的互联。
在本次宣布的RISC-V CPU Chiplet计较单位部份,即Ventana Veyron V2处理器,在其前身V1基础上进行了庞大进级供应更好的Performance/W。
“RISC-V和Chiplet目的同为构建一个本钱加倍昂贵加倍天下两者的组合布满想象力,将会塑造全新贸易形状。” 陈健就此暗示。
Kiwi 3D Base Die,为Edge AI提速
针对AI Booster设想方面教训,
当然,Chiplet作为一种设想体式格局,离不开业余EDA对象支撑。,从架构索求、物理完成阐发考证旌旗灯号完整性仿真、电源完整性仿真终究签核的全流程解决计划,极大地进步 了芯片设想的迭代速率终究完成云云卓越产物。