资讯详情

可省近90%服务器,反欺诈效率却大增,PayPal打破「AI内存墙」的方案为何如此划算?

人们常说,新一代人工智能的浪潮是由数据、算法和计算能力驱动的。近年来,模型参数的爆炸性增长显示了计算能力的基本作用。

为了满足企业用户对计算能力的强烈需求,目前有很多 AI 硬件(比如 GPU)所有这些都在努力提高峰值计算能力,但这种提升通常以简化或删除其他部分(如内存分层架构)为代价[1],导致

SOTA Transformer 模型参数(红点)和 AI 对比硬件内存(绿点)的增长趋势。(图源:https://github.com/amirgholami/ai_and_memory_wall/blob/main/imgs/pdfs/model_size_scaling.pdf)

因此,当遇到大型训练和推理时,用户总是觉得显存或内存不够,这就是所谓的「内存墙」问题。

为了打破内存墙,人们想出了很多方法,比如前段时间大火 Colossal-AI 该项目是一种适用于培训阶段的方法。在这个项目中,开发者有效地利用了它「GPU CPU 异构内存」策略使消费级显卡能够训练 180 1亿参数的大模型。

在推理阶段,模型对硬件的主要要求是加载模型的所有参数,因此对计算能力的要求相对较低。一般来说,我们可以使用计算密集型模型 INT8 量化或并行模型等策略,使用多个策略 GPU 推理单个模型的显存资源。但事实上,工业应用场景中有许多机器学习或深度学习模型可以使用 CPU 推理内存,如推荐系统、点击估计等。

在推理阶段,模型对硬件的主要要求是加载模型的所有参数,因此对计算能力的要求相对较低。一般来说,我们可以使用计算密集型模型 INT8 量化或并行模型等策略,使用多个策略 GPU 推理单个模型的显存资源。但事实上,工业应用场景中有许多机器学习或深度学习模型可以使用 CPU 推理内存,如推荐系统、点击估计等。

在工业场景下,大量数据和高维模型确实可以带来更好的效果,但这些数据的高维和稀疏特性给计算和存储带来了巨大的挑战。毕竟,对于推荐系统等模型,隐藏层的大小可能是数百万的量级,总参数甚至可以达到10万亿的量级 GPT-3 其用户往往需要特别强大的内存支持系统来实现更好的在线推理能力。

既然内存不够,不是直接堆内存条吗(比如 DRAM)就够了?原则上是可行的,但一方面 DRAM 内存的价格不便宜啊,这类模型需要的内存又不是几百 GB,相反,它总是冲上数十 TB,而单条 DRAM 一般只有几十个内存 GB,很少有超过 128GB 的。所以,整体算一下,不论是成本,还是在容量扩展上的能力,这一方案都不太容易被大家接受。

此外,DRAM 还有一个内存问题,即数据容易丢失,或者一旦断电就丢失数据。有时,当模型重启或排除故障时,只能将重量从更慢的存储设备中恢复过来,如 SSD 或者将机械硬盘加载到内存中会耽误时间,这对于在线推理业务来说是难以忍受的。

所以,除了购买 DRAM 除了这个不划算的选择,提供在线推理服务或使用此类应用程序的企业还有其他选择吗?

如果仔细比较不同存储级别的容量和延迟数据,我们会发现,DRAM 内存和固态盘 / 硬盘存储之间其实存在很大的差距。如果能开发一种全新的存储部件或设备来填补这个缺口,那内存墙问题可能就会得到缓解。

这就是(Intel?Optane?Persistent Memory, 简称 PMem)诞生的背景。它独特的傲腾存储介质与先进的内存控制器和其他软硬件技术相结合

此外,傲腾此外,傲腾 持久内存还有两个重要特点:,它们汇集了内存和存储的优点。传统的存储需要按块读写,就像去图书馆借书一样。有目标书的书架上的书必须背回家分类,而按字节找到的内存相当于准确定位目标书的位置,只能借出。

傲腾?存储层中持久内存的位置和作用

以书籍的存储和搜索为例,了解不同存储层次的特征

数据持久性得到补充 DRAM 内存的先天缺陷可以在断电后保留数据,这使得大量内存数据库在计算系统计划内或计划外停机时恢复数据和服务的速度大大加快。毕竟,它节省了数百个固态磁盘或硬盘 GB,甚至是 TB 读回内存的级数据耗时。

光练不说傻把式,光说不练假把式,傲腾持久内存能否帮助用户打破? AI 内存墙,我们还是要眼见为实。

全球知名的在线支付服务提供商 PayPal 为例。和其他金融服务企业一样,PayPal 即使这方面的应对水平高于行业平均水平,年损失仍将超过 10 亿美元。因此 PayPal 为了实时识别新出现的欺诈模式,不仅构建了具有强大反欺诈预防模型的实时决策体系,而且对反欺诈特别关注,PayPal 该系统在处理和分析相关数据时仍在加强效率。

(图源:PayPal Newsroom)

已经承担了几百 PB 数据处理任务 PayPal IT 基础设施来说,反欺诈决策平台数据量的增长和数据处理和分析效率的提升可是一个严峻的挑战。虽然它从 2015 年就导入了 Aerospike 数据库技术将主索引数据存储在内存中,以实现更好的实时性,但随着主索引数据规模的不断扩大,节点中的内存容量很容易耗尽,从而影响数据读写和处理的实时性。此时,购买新节点将花费高昂的成本。请注意,这里的成本不仅包括硬件成本,还包括管理人员和功耗成本。

所以

综合这些需求,PayPal 选择引进英特尔的傲腾持久内存,这里还有另一个先决条件 Aerospike 正好是这款创新硬件发布后第一波支持它的数据库厂商之一。

借助 Aerospike 数据库的混合内存架构( HMA),PayPal 可将主索引转移到傲腾在持久的内存中,而不是过去 DRAM 中。这样做的好处很明显,因为傲腾?持久内存的单个容量远高于 DRAM,且每 GB 成本也明显低于 DRAM,这是有帮助的 PayPal 将每个节点的总存储空间提升到原始 4 倍(从 3.2 TB 到 12 TB),因此 PayPal 只有使用较小的集群才能满足业务所需的高性能,从而减少服务器数量 50%,每个集群的成本降低约为 30% 。

将主索引存储在傲腾在持久内存中还有一个额外的好处,那就是我们前面提到的数据持久性。这使得 Aerospike 完成索引重建的时间从 59 分钟缩短至 4 分钟,满足 PayPal 要求运行时间长,可靠性高。英特尔和 Aerospike 多年的合作也实现了一系列更深层次的优化,包括傲腾在持久内存中存储更多数据(不仅仅是索引)。

在使用傲腾时持久内存加持 Aerospike 实时数据平台后,PayPal 以其 2015 以前使用的年欺诈数据量和平台为基准进行了评估,发现新方案可以对其进行评估,漏查的欺诈交易量降至约原来 1/30。同时,与以往的基础设施相比,,相关硬件的占用空间可以减少到原始空间 1/8,吞吐量可增加到原来的 5 (倍(从每秒事务处理量(从每秒事务处理量) 20 万提升到 100 一万),硬件成本降至原来的约 1/3( 预计硬件成本来自 1250 万美元省至 350 万美元)。

需要指出的是,事实上, PayPal 的 IT 基础设施中傲腾™ 持久内存并不是一个孤立的部件,与它紧密配合且内置了 AI 加速能力(英特尔® 深度学习加速技术)的第二代英特尔® 至强® 可扩展处理器也是这一解决方案的灵魂所在。相信如果把它换成 AI 加速能力以及内存子系统带宽和性能表现更优的第三代英特尔® 至强® 可扩展处理器,这种打破内存墙的效果将更加明显。 

值得一提的是,在 AI for Science 领域,至强® 可扩展处理器 + 傲腾™ 持久内存的组合所带来的突破内存墙实践也开始大放异彩。

以这几年大火的 AlphaFold2 为例。作为 AI for Science 领域的著名大模型,AlphaFold2 的落地部署在算力和存储方面都面临着严峻的挑战,这也给内置高位宽优势(AVX-512 等技术)的第三代英特尔® 至强® 可扩展处理器和大肚量的傲腾™ 持久内存提供了尽情发挥的空间。

(图源:www.exxactcorp.com)

据英特尔相关技术专家透露的信息,他们正在英特尔这套计算 + 存储的创新产品组合上优化 AlphaFold2。一方面,在模型推理阶段,他们通过对注意力模块(attention unit)进行大张量切分(tensor slicing),以及使用英特尔® oneAPI 进行算子融合等优化方法,提升了算法的计算效率和 CPU 利用率,加快了并行推理速度,并缓解了算法执行中各个环节面临的内存瓶颈等问题。

另一方面,他们通过使用傲腾™ 持久内存,为 AlphaFold 2 实现了 TB 级内存的战略级支持,轻松解决了多实例并行执行时内存峰值叠加的内存瓶颈。这个瓶颈有多大?据英特尔专家介绍:在输入长度为 765aa 的条件下,64 个实例并行执行时,内存容量的需求就会突破 2TB。在这种情形下,对广大用户来说,使用傲腾™ 持久内存是一个可行且可负担的方案。

虽然傲腾™ 持久内存的出现为一些应用场景提供了打破内存墙的可行路径,但截至目前,硬件领域还没有出现一个「一招鲜吃遍天」的内存墙解决方案,不过其他一些技术路径齐头并进的势头,还是让我们看到了解决这一问题的希望。讨论热度较高的解决方案包括在即将呈爆发式成长的异构系统中实现统一和池化的内存资源(把不同运算单元匹配的 HBM、显存和系统内存集中管理和分配),以及前瞻性的存算一体架构等。

在异构系统中打造池化的内存资源是近年来针对算力和存储间瓶颈问题的比较热的一个创新方向。为了实现 CPU 与 GPU、FPGA 等各种专用加速芯片的高速互联,英特尔早在 2019 年就牵头成立了名为 CXL(Compute Express Link)的标准组织。对于存储来说,CXL 将提供新的内存接口,与原来的 DDR 相比,它具有更高的可扩展性,更高的带宽,支持包括傲腾™ 产品在内的各种存储方案,而且它的架构设计不局限于单个系统,而是可以在多机之间进行连接,实现多机共享。大内存技术方案的代表性企业 MemVerge 的创始人兼 CEO 范承工评价说,CXL 是一个改变游戏规则的新技术,它可以实现内存和计算的相对独立,有望实现多机之间的内存池化共享以及真正的可组合基础设施,可以动态地为系统添加计算、内存、存储资源[2]。

存算一体则是让存储具备计算的能力,从而解决数据反复搬迁导致的效率低下问题。如今国内外众多企业都已经开展了存算一体技术的研发,包括英特尔、SK 海力士、IBM、美光、三星、台积电、阿里等传统芯片大厂以及众多新兴 AI 和存储企业[3]。

不过,这些方案在成本、技术成熟度等方面还需要更多验证。

所以,尽管我们都希望看到更多前瞻性解决方案能够早日落地,但是短期来看,英特尔® 傲腾™ 持久内存仍然是当前比较容易实现而且性价比较高的一种内存墙解决方案。况且,,想必到了那时,其打破内存墙的效果将更加凸显。

参考链接:

[1] https://www.oneflow.org/a/share/jishuboke/75.html

[2] https://www.51cto.com/article/693956.html

[3] http://www.dzsb.net/index.php/2022/05/05/quanqiucunsuanyitijishuyanjiujiliangchanqingkuangzuixinjinzh/

标签: 堆叠式卡连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台