虚拟数字人行业现状和技术研究-锐单电子商城

本文为金(渚薰) 在第十六届D在前端技术论坛上的分享将向您介绍行业的现状，包括不同行业的现状showcase凭借优秀的技术/创作平台，近年来吸引了包括多个核心技术点在内的热门数字人，想象了数字人未来的技术增长和业务价值，以及我们现在应该如何布局。

我们理解数字人

近年来，数字人的概念在互联网上非常流行，许多流行的虚拟数字人或虚拟偶像出现在行业中，如Lil Miquela，洛天依，初音，鹿鸣，暖暖的AYAYI等等。这些数字人的商业模式或市场价值通常是：通过运营积累流量，依靠流量实现。例如：品牌代言（IP、事件）、粉丝经济（二次元）、虚拟主播（游戏、带货）。

本文为数字人定义了三个核心要素：

形状：具有人或拟人的外表，具有特定的外表等人物特征。
动作：有与人类相似的行为，有能力用语言、表情和身体表达。
神：具有比较人的思想，具有识别外部环境、与人交流互动的能力。

这三条要素对于虚拟数字人的“完成度”来说是一个递进的关系。

?市场现状

近年来，虚拟数字人在电商、金融、影视、游戏、金融等行业都有不同的市场规模。比如2020年中国虚拟偶像产业市场规模为34.预计2021年将达到62亿元.2亿元。

市场规模的增长也证实了技术的发展：生产成本逐年降低，形象外观更真实，语言交流更自然。虚拟数字人的出现已经过去了三个重要时期：

初创期:市场初见增长，技术不确定，进入门槛高。
发展期:市场竞争对手增多，技术逐渐形成，进入门槛低。
平台期:市场红海到来，平台成熟，领先小众。

?解决方案

在当今的平台时期，各厂商也聚集在一起，提供不同层次的解决方案：

基础层：为虚拟数字人提供基本的软硬件支持，包括显示设备、光学设备、传感器、芯片等，基本软件包括建模软件、渲染引擎。只有少数顶级技术公司拥有优秀的软硬件实力。
平台层：包括**软硬件系统、生产技术服务平台、AI 能力平台，**为虚拟图像的生产和开发提供技术能力。许多企业通过销售服务和技术为其他企业提供平台服务。
应用层：除了最终的企业用户外，一些具有优秀营销和运营能力的公司或团队也为行业带来了良好的想法和创意。

我们在做什么？

今年年初，虚拟角色团队在阿里巴巴前端委员会的互动图形方向上成立。该团队由大型淘宝互动团队、达摩学院智能数字团队、优酷数字制作和广播团队、考拉互动组成&内容购物指南团队、蚂蚁数字和金融内容社区团队。他们共同分享和研究虚拟数字人的技术和应用。业务涉及三个主要场景：游戏、视频和直播。

游戏：虚拟数字人基本上是游戏行业的标准。许多游戏需要塑造角色。其中，这类游戏可以让玩家通过自定义塑造角色形象功能。自定义塑造角色形象的功能也被称为捏人。
淘宝人生:这是手淘App一款可以创造虚拟形象的游戏，包括捏脸、穿衣、美颜、拍照等功能，购物、家园等。
考拉：这是考拉海购App一款可以培养考拉的游戏，包括装扮功能、喂养等玩法。
它们均采用Web主要技术方案，通过自研引擎完成渲染、表情、动作等人物的形状和行动。
视频：虚拟数字人的短视频不仅能给用户带来优秀的感官体验，还能给业务带来增量的好处。在制作虚拟数字人的视频时，虚拟数字人可以通过动作捕捉、智能识别、导演系统等方案栩栩如生。
直播直播：现场直播与虚拟数字人的结合仍处于早期探索阶段，因为两个非凡的行业需要结合并形成新的或增量的商业模式并不容易。所涉及的技术还包括实时动作捕捉、算法训练合成、云渲染推广等。

让我们一起创作

随着应用场景的专业化和深入，技术研究还将涵盖工程和算法等多种综合解决方案，在不同的应用场景下，重点将会有所不同。接下来，以淘宝互动团队的淘宝生活业务为例，展示如何从艺术生产、渲染风格、捏脸、表达动作、导演系统和语音合成六个主题创建超级虚拟偶像。

?形

本章将完成虚拟数字人的形状 - 具有人或拟人的外貌，具有特定的外貌等人物特征。

雕刻模子 - 美术工作流

首先，我们需要确定虚拟数字人的基本身体特征，如使用真实比例的7头或卡通比例的5头；男性、女性、动物拟人化等。确定基本形体特征后，可移交3D艺术生产基本形式。整个过程通常是传统的DCC但3D美术和2D艺术最大的区别在于2D在内容的艺术生产中，技术可以在艺术产品交付后介入；3D在内容的艺术生产中，技术需要直接介入生产过程。原因是：3D内容的艺术生产过程相对较长和复杂，艺术与技术之间需要频繁的合作，以确保交付质量或效率。我们也称这个过程为3D艺术工作流。

例如，艺术家开始设计和雕刻杯模，生产线需要解决技术问题，如模具使用什么材料，如何将材料注入模具，以及如何顺利脱模。通常，这些都是由技术负责的，需要提前与艺术家协商制作模具的规范，以确保后续项目的顺利进行，最终完成模具的交付。3D艺术工作流也有很多类似的方案，**大同是因为3D内容制作也有一定的工业标准，因为细节与艺术家使用的软件和技术实现的引擎密切相关。**以淘宝生活中的艺术工作流为例，大致经历了这些步骤：

用Maya制作白模、骨骼，暂时存在过程产品OSS，并提供预览工具
用Photoshop制作贴图，上传贴图CDN
在Maya里定制GLTF Exporter插件，导出glTF(包括模型数据、骨骼数据、材料、地图数据)
Web端嵌材料编辑器调整自主研发材料的效果
在EVA Figure引擎通过GLTF Importer导入人体的glTF，并定制材质Shader进行渲染。

经过早期与艺术家的磨合，最终会形成一套针对当前需求的艺术工作流，稳步运行。

精雕细琢 - 捏脸

在完成了角色的基本形式后，我们每个人都可以用它来继续完成我们想要的。虽然不同的外观也可以在艺术环节完成，但成本相当高，每个人都喜欢不同的外观，所以有必要多次制作或修改艺术。所以我们为基础形体加入了捏脸系统，你就可以轻松的完成定制化的要求。淘宝生活提供捏脸功能，可以体验捏脸的乐趣。捏脸技术的基础是局部修改和改变现有的模型数据，最终达到千人千变的目的。

那么，如何通过这样的系统来改变基本模型呢？通常，一组模型数据是顶点数据的集合。改变模型通常是改变顶点数据，改变顶点数据通常有两种方式：

骨骼蒙皮

通过外力对顶点施加某种变换，简单来说就是包含了位移、旋转和缩放三种变换的一组数学公式。为了完成这种变换，这股外力可以使用“骨骼”来完成。这里说的骨骼同样可以理解成人体的骨骼，当手指上关节的作用发生运动变化时，手型就会发生变化。在捏脸功能中，在淘宝人生中，我们给脸部预置了大约20多种骨骼，可以改变头围、眼球、眼角、眼眶、颧骨、脸型等等。

混合变形

骨骼带来的顶点变换很粗矿，无法完成对嘴形状的定制，因为这样一个看似简单的外表，实际上在模型中会涉及数以万计的顶点进行不同规律的变换。于是，我们就为这一组顶点变换专门设置变形器，业界一般称为“Morph Target”或“Blend Shape”。这种变换的原理是给顶点准备一个基准位置，再提供一个”极端变化“后的最大位置，之后乘以一定的”权重比例“，就能让这个顶点在基准位置和极端位置中的任一位置。但因为脸部需要局部变形的地方太多，且一个变形可能涉及数以万计的顶点，所以对实时计算压力也是不小的。

两种技术比较来说，骨骼蒙皮简单高效但不够灵活，而顶点变形更加自由但制作和计算成本都较高。所以在实际开发中，哪些用骨骼，哪些用顶点变形，这是一个权衡“效果”与“效率”的工作，需要具体去看，反复拿捏。在淘宝人生中，”捏脸“功能小部分使用了骨骼蒙皮，大部分使用了混合变形。这也是长期磨合和经验累积的结果。

时尚穿搭 - 换装和美颜

有了基础形体和长相后，我们必须得给角色穿上时尚的衣服，画上美丽的妆容。对于人类来说，穿衣和画妆是个“动作”，在虚拟世界中，我们仍然要能很好的完成“穿”和“画”这两件重要的事情。

换装

现实生活中，衣服穿在身上它就和皮肤紧贴着或者有一定空隙，这种想法放到虚拟世界中其实非常难实现。因为皮肤和衣服其实就是Mesh（网格），当衣服穿在身上时实际上是两组网格“碰撞”在一起，于是会引出如下两个问题：

如何在身体做动作时，衣服也跟着身体“做动作”。身体是拥有骨骼的，骨骼外包裹着一层“皮肤”，用同样思路，衣服实际上也是包裹在同样骨骼上的一层“皮肤”。在淘宝人生中，我们将身体和衣服采用同一套骨骼模板，并在渲染时实现了两份骨骼数据的实时“同步”。

如何解决身体的网格穿透到衣服外。用相同骨骼的方案解决衣服“穿”在身上的效果非常巧妙，但也容易出现问题，比如某件衣服局部非常内凹，那么就很容易出现身体的皮肤突出在衣服之外的问题，俗称“穿模”。因为仔细调整道具成本实在太高了，所以我们也做了个取巧的方案：通过把人体进行“切割”，并对每件衣服遮挡的人体部位进行标记，当渲染某件衣服时，直接隐藏被遮挡部位Mesh即可。

有了这两项技术的攻坚后，我们通过和美术生产约定相关的规范和工作流程，就可以批量生产衣服，而换装仅仅只是加载不同的模型而已，无须逐个特殊处理即可达到目的。

美颜

妆容的细节要求非常多，所以最便捷的方式就是使用贴图。基础形体的脸部已经有一张基础贴图了，可以简单理解成“素颜”；要在素颜上画不同的妆容，我们做法是“动态合成纹理”。整个过程分为两步。

渲染到纹理（Render To Texture）：第一步创建一个可渲染对象（Render Target），把基础纹理贴图渲染到这个可渲染对象上，再把妆容纹理贴图渲染到同一个可渲染对象上。这一步需要注意艺术家在绘制妆容纹理时，需要和基础纹理的UV是一一对应的。

使用可渲染纹理：第二步就是把合成好的纹理渲染到模型上。

二次元还是三次元 - 渲染风格

最后到了给它设定风格的时候。有人会喜欢真实系，有人也会喜欢卡通系，也会有人喜欢朋克风，也会有人喜欢纯欲风，这些不同的风格需要依靠渲染功能来完成。当我们说到渲染时，都会提到图形渲染管线，它可以根据不同的需求做很多组合和调整，比如最简单的渲染管线是：加载模型 ---> 顶点着色 ---> 片元着色 ---> 光栅化。其中片元着色的步骤，就是用来完成材质纹理的绘制使之达到想要的角色风格。对材质纹理的绘制通常分为两大类：

PBR

全称Physically Based Rendering，顾名思义是基于物理的渲染，既然是基于物理的，那么它渲染的最终结果会非常接近我们的真实世界。所以也就很好理解，这类材质可以决定人物是写实或超写实风格的。此技术由8大核心理论和几个重要的光照模型组成，在此不一一列举，有兴趣的同学可以去阅读《Real-Time Rendering》中的PBR相关章节，或是SIGGRAPH的《Physically Based Shading in Theory and Practice》系列文章。例如在淘宝人生中，根据不同部位选取渐变贴图上采样色的方式模拟了次表面散射的技术，实现了人脸皮肤的红润通透感。

NPR

全称Non-photorealistic Rendering，即非真实感绘制。其最主要的应用之一，就是非常盛行的二次元风格，特别是日式卡通风格。和PBR不一样，NPR不会去追求各种物理学模拟，而是从油画、素描、卡通动画中得到启发和灵感。比如，经常被使用的人物描边、卡通着色、边缘光、头发高光等。这些特殊的材质渲染也都能在找到专业的论文和例子，大家可以自行搜索。

▐ 动

这个章节我们来完成虚拟数字人的动 - “拥有和人相似的行为，具有用语言、表情和肢体等表达的能力”。

表情和动作

成功塑造虚拟数字人的关键之一是真实且细腻的表情和动作。真人的表情和动作是依靠骨骼和肌肉相互作用而呈现的，在虚拟世界中，我们同样用数字技术来模拟这些骨骼和肌肉的作用，呈现表情和动作。在上面“形”的章节里，已经提到了脸部使用了骨骼蒙皮和混合变形的方式来改变顶点，在“动”的章节里，仍然会使用这两项技术，并且通过动画的方式让顶点“动”起来，从而完成相应的表情和动作。

手K动画

在脸部表情的刻画中，顶点动画（也就是Morph Target Animation）是主要实现技术之一。在淘宝人生的“捏脸”功能中骨骼蒙皮是用来确定脸的大小和五官的位置的。混合变形则是用来完成五官包括脸颊、额头部位的变形，其中用于表情动画的BlendShape多达50个，它和苹果的Animoji使用的BlendShape非常接近，这也是业界公认的可以做到绝大多数表情（当然很多微表情非常难达到）的设定。

在肢体动作的制作中，骨骼动画（也就是Skeletal Animation）是主要实现技术之一。骨骼动画包含了骨骼（Skeleton）和蒙皮(Skin)两种数据。首先把Mesh的顶点绑定在骨骼上生成蒙皮，这些顶点会受到多个不同权重骨骼的影响，然后通过改变骨骼的朝向和位置来生成动画，这时蒙皮就会跟着骨骼一起动起来。

动作捕捉

制作动画的成本相对都比较高，原因是上述两种动画技术通常是关键帧动画。假设一个人抬起手肘，那么手臂和手腕也会因此而产生连贯性的动作。如果要实现这样一段动画，关键帧将会非常之多，制作起来也会异常困难。为了有效降低制作成本，我们需要用到动作捕捉的技术，通常我们把动作捕捉技术分为2大方向4个类别，可以用四象限图来描述：

我们用手机摄像头完成的AR互动游戏、AR面具等功能实际就是光学识别+无穿戴设备这一象限内的技术。

编排 - 导演系统

我们再来对比下几种方式制作的成本和灵活度。

手K动画的制作成本无疑是最高的，灵活度和效果也是最好的，同时也要求经验丰富的绑定师和动画师才能完成。动作捕捉的制作需要一套专业的动捕设备，一个能容纳这些设备和能满足做所需动作的场地，一个动作制作周期少则几个小时，多则几天。在面临诸如众多舞蹈场景的运营需求下，最适合的方案是把多个已经制作完成的动作，自由或智能编排成一个剧本，就像拍戏时剧本是导演提前设计好的，演员只需依照剧本表演出来就行，故也称为“导演系统”。

动作的串联需要解决一个问题：动作1到动作2如何过渡衔接。这便需要用到混合动画（Blending Animation）技术。混合动画的基础原理是以动作1当前状态为起点、动作2的指定状态为终点，计算关键帧的插值**。简单的可以使用线性插值，复杂的也可以使用贝塞尔曲线插值等。关于混合动画的知识点和方案非常多，也适用于不同的场景和需求，大家可以自行搜索，例如Unity和Unreal也都提供了很多不同的混合方案。

有了导演系统后，就可以提供自由的组合能力，比如想举行一场虚拟演唱会，也可以通过导演系统完成表演。

▐ 神

这个章节我们来探索虚拟数字人的神 - “拥有比拟人的思想，具有识别外界环境、并能与人交流互动的能力”。我们在对“神”的研究上，仍然处于非常初级的阶段，一方面它需要大数据的支撑，另一方面它对于前端这个岗位来说已经有相当的距离了。为了让虚拟数字人更加真实，“神”会是未来重点的研究方向。

性格流露 - 自然语音合成

虚拟数字人的语言表达能力需要用到语音合成技术，比如TTS（Text To Speech）。阿里达摩院有着非常完善的TTS引擎，用它就能让虚拟数字人开口说话。不过这也仅仅是开口说话，大家其实都能感受到这样的语言非常苍白无力，毫无“情感”，无法在不同性格和情感时表达出来的不同语气。在业界可以看到一些优秀的成果：YAMAHA的歌声合成系统“VOCALOID”（初音未来和洛天依均在使用），谷歌基于深度学习的端到端语音合成系统“Tacotron”，以及讯飞的语音合成系统等。阿里达摩院也在持续研究更加符合自然表达的语音合成系统，通过为虚拟数字人设定性格，并借助大数据的深度学习来产生风格迥异的情感型语气。大家可以细细评委下以下三段真人、普通TTS和风格化TTS的效果。至此，在现有的技术下我们完成了一个超级虚拟偶像的登场。

我们向往的数字人

淘宝人生是基于Web技术打造的数字人，在经历了2年的技术打磨和升级改造，我们也遇到了Web数字人技术的困境。在性能方面，Web应用和原生应用存在无可忽视的差距。WebGL（基于OpenGL ES 2.0）作为Web主要的图形接口在Vulkan、DirectX、Metal面前无论是能力还是性能上都无法追赶。再加上不同的移动设备在软硬件上仍会出现奇奇怪怪的兼容性问题。这一系列困境已经成为了Web中的数字人一个很难跨越的天花板。

反观行业中的数字人技术，超写实渲染、微表情、肌肉模拟、物理材质、光线追踪等等，让身处Web技术中的我们望尘莫及。同时，阿里的虚拟数字人技术也才刚刚起步，其中基础软硬件、中台技术、大数据支撑等也都起步较晚，这些都给我们带来了不小的困难和阻力。

面对这些困境和差距，我们针对淘宝人生中虚拟数字人技术的发展也会从各个方向上去做努力和尝试。

首先是基于Web技术的优化：在Serverless渲染云服务基础上，在EVA Figure（虚拟人像渲染引擎）和Puppeteer技术的结合下，借助最新的WebGPU/WASM等，让虚拟数字人的渲染效果和质量得到提升。我们也在积极同阿里云云服务团队、大淘宝Node架构团队一起合作建设Web技术下的云渲染流程。计划把它应用在一些非实时的渲染任务上，例如生产淘宝人生用户形象的全身照片、短视频、动作帧图等等。这些产物也能被淘宝人生业务或其他业务所使用。

其次是对业务能力的升级，在业务和技术相互滋养的土壤中，不断将业务能力积累成平台服务，为阿里的虚拟数字人技术贡献点点滴滴的经验，并将部分解决方案通过商业化上云的方式服务大众。

然后在元宇宙、超写实、XR/6G、脑机接口等等行业风向标的辐射下，畅想未来Web数字人技术可能性。

文末特别感谢下阿里前端委员会图形互动虚拟角色小组成员的出色工作，让我能完成此文章内容。也欢迎大家持续关注虚拟角色小组和各个团队的成果。

团队介绍

大淘宝技术互动团队目前负责“天猫农场”、“金币庄园”、“淘宝人生”这3个手淘内千万级的互动产品，重点打造双促、春节、市场PR等S/A级营销互动，同时为商家、达人、主播等沉淀和提供私域内的互动玩法。

面向业务，我们基于阿里模块标准，在成熟的搭建平台上完成页面的模块级搭建；面向研发，我们依靠整个阿里经济体强大的基础生态来保障互动领域研发能力高效且合理的触达用户；我们拥有完全自研的互动研发体系EVA，同时EVA体系的建设也和阿里经济体互动方向紧密结合在一起，打造整个经济体最优秀的互动解决方案，并最终实现我们的愿景：人人可开发、处处有互动。

同时，我们是一支拥有战友情、兄弟义，能自嘲、能自嗨，不敷衍工作、不耽误生活的充满活力和想象力的团队，我们有本来可以靠颜值却偏偏要靠实力的小姐姐们、也有一群群推着前浪大踏步向前的后浪，还有许许多多可靠、个性、自信的小伙伴。我相信这样一只具有鲜明技术特色、又屹立于手淘业务一线的团队，一定会是屏幕前的你希望且愿意加入的团队。欢迎投递简历至：zhuxun.jb@alibaba-inc.com

参考文献

《艾媒咨询|2021中国虚拟偶像行业发展及网民调查研究报告》https://www.iimedia.cn/c400/79469.html
《三维软件知多少》http://www.bgteach.com/article/40
《三维文件格式知多少》https://www.bgteach.com/article/132
《glTFTutorial》https://github.com/KhronosGroup/glTF-Tutorials/tree/master/gltfTutorial
《Vertex Transformation》https://www.khronos.org/opengl/wiki/Vertex_Transformation
《WebGL Skinning》https://webglfundamentals.org/webgl/lessons/webgl-skinning.html
《MorphTarget》https://en.wikipedia.org/wiki/Morph_target_animation
《Real-time Rendering》https://www.realtimerendering.com/《MovingFrostbite toPBR3.0》https://seblagarde.files.wordpress.com/2015/07/course_notes_moving_frostbite_to_pbr_v32.pdf
《StylizedRenderinginGame》http://stylized.realtimerendering.com/
《基于物理的渲染（PBR）白皮书》https://zhuanlan.zhihu.com/p/53086060
《ARkitFaceBlendshapes》https://arkit-face-blendshapes.com/
《OpenGLSkeletalAnimation》https://www.khronos.org/opengl/wiki/Skeletal_Animation
《类卡通效果与写实人脸的52个blendshape效果对比及变化说明》https://www.bilibili.com/read/cv11763241
《MotionCapture》https://en.wikipedia.org/wiki/Motion_capture
《MotionCaptureSystem》https://scholar.google.com/scholar?q=Motion+capture+system&hl=zh-CN&as_sdt=0&as_vis=1&oi=scholart
《GameEngineArchitecture3rd-AnimationBlending》https://www.gameenginebook.com/toc.html
《游戏引擎动画系统阅读笔记》https://zhuanlan.zhihu.com/p/374343190
《语音识别技术》https://scholar.google.com/scholar?hl=zh-CN&as_sdt=0%2C5&as_vis=1&q=%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E6%8A%80%E6%9C%AF&btnG=
《语音合成技术》https://scholar.google.com/scholar?q=%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90%E6%8A%80%E6%9C%AF&hl=zh-CN&as_sdt=0&as_vis=1&oi=scholart
《MetaHuman》https://www.unrealengine.com/en-US/digital-humans

✿ 拓展阅读

作者|渚薰

编辑|橙子君

出品|阿里巴巴新零售淘系技术

资讯详情

虚拟数字人行业现状和技术研究

?市场现状

?解决方案

?形

雕刻模子 - 美术工作流

精雕细琢 - 捏脸

骨骼蒙皮

混合变形

时尚穿搭 - 换装和美颜

换装

美颜

二次元还是三次元 - 渲染风格

PBR

NPR

▐ 动

表情和动作

动作捕捉

▐ 神

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

虚拟数字人行业现状和技术研究

?市场现状

?解决方案

?形

雕刻模子 - 美术工作流

精雕细琢 - 捏脸

骨骼蒙皮

混合变形

时尚穿搭 - 换装和美颜

换装

美颜

二次元还是三次元 - 渲染风格

PBR

NPR

▐ 动

表情和动作

动作捕捉

▐ 神

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录