资讯详情

【论文阅读-表情捕捉】High-quality Real Time Facial Capture Based on Single Camera

来自FACEGOOD论文标题:High-quality Real Time Facial Capture Based on Single Camera,FACEGOOD亲自分析:https://zhuanlan.zhihu.com/p/436866934

作为首要目标,我们所做的是工业级和高精度,所有的工作都围绕着这一点进行。我们尝试了很多实时方法,3DMM、传统的基于shape方法,甚至3D相机,都不尽如人意。以民用与工业的矛盾为主,一般民用路线无法满足高精度需求,例如,arkit52个变形体很常见,效果也很好ok,但是52个变形体的天花板很低,metahuman的变形体有600 ,一些影视作品甚至绑定了数千部,这种特殊场景在工业上非常普遍。传统做法还有一个问题,计算过于依赖landmark,我们提出了一个想法,,1万点的4D输出,只需5ms,非常快。这种方式还有个好处,足够鲁棒,对高频率大幅度的一些头盔震动有很好的抑制能力,另外在表情的自定义方面也有很好的潜力,例如我们用metahuman做实验中,舌头的动作重建得很好,模型在说话时舌头也会跟着动。

(我以前没有接触过这个方向,所以我把它翻过来introduction)

Introduction

面部表情捕捉技术分为 landmark driven, point cloud driven, sound driven and image based.

人类通过面部表情表达内心的感受,如快乐或愤怒。如何使计算机自动识别表情是吸引许多学者投入精力和时间的重要研究领域。 Essa et al.[Essa et al., 1996] 表明面部动画方法也是为基本视频输入而设计的,但它们对光流或特征跟踪的严重依赖可能导致不稳定。在动画、游戏、电影和电视制作中,面部表情往往起着不可或缺的作用。

电影中,金刚、咕噜等面部结构奇特的人物的生物动画是通过这种技术生成的。在人脸模拟领域,如何利用单个演员的表情数据来驱动不同的人脸模型引起了极大的关注。在动作捕捉领域,不同面部表情的动作数据被映射和准确。特征重建方法依赖于不同屏蔽条件下的训练数据,但屏蔽位置和类型太多,无法控制。 Li et al. [Li et al., 2018a] 用于感知屏蔽的补丁门控旋转中性网络(pg-cnn),人脸的遮挡区域可以自动感知,重点关注划分的24个非遮挡区域,使用更多的特征信息 24 个子区域输入到一个注意力网络中,得到加权级联的局部特征。 Li et al. [Li et al., 2018b] 通过引入全局候选人进一步扩大 pg-cnn 该方法用于表达识别补充人脸图像的全局信息。然而,这些

最近的研究采用了不同的网络结构和预处理方法。在表情识别领域,深度学习的快速发展促使研究人员利用深度神经网络开发人脸表情识别。近年来,研究人员提出了各种新颖的表情识别模型和算法,以提高表情识别效率,降低人脸表情识别效率和特殊表达识别错误。因此,它们已经证明了卷积神经网络也可以提取特征和分类面部表情识别。 Lewis et al.[Lewis et al., 2014] 表明,尽管 blendshape 方法很简单,但仍有一些悬而未决的问题。

Iordanis et al.[Mpiperis et al., 2008] 在不同的人脸上引入了基于模型的新框架 3d 建立点云之间的对应关系。 Xiao et al.[Xiao et al., 2004] 研究了流行的生成模型 Active Appearance Models 表达能力,表明它们可以对 3d Morphable Model 任何可以建模的东西都可以建模,但可能需要更多的形状参数。 2009 年,Weise et al.[Weise et al., 2009] 一种低成本的实时结构光扫描仪可以提供密集的 3d 数据和纹理。随着RGBD研究人员可以通过相机的出现获得深度数据。物理距离是RGBD除机获得的深度图的像素值除以比例图。

Hao et al.[Li et al., 2013] 在 2013 以视频和深度输入为基础,提出了基于传感器的免校准面部表现捕捉框架。 Samuli et al.[Laine et al., 2017] 基于单目视频的卷积网络,包括自遮挡区,产生了高质量的输出。 Thibaut et al.[Weise et al., 2009] 现场木偶系统被允许提出 2009 每年将演员的面部表情转移到数字 3d 角色上。2011 年,Thibaut et al.[Weise et al., 2011] 引入了一种结合几何和纹理的新型人脸跟踪算法。它能有效地降低质量 2d 图像和 3d 深度图映射到逼真的面部表情。 Martin et al.[Klaudiny et al., 2017] 在 2017 每年使用特定于演员的回归器,从多视图头盔相机数据中捕捉无标记的面部表现。Derek et al.[Bradley et al., 2010] 它引入了一种纯被动的面部捕捉方法,只使用一组相机,但不需要模板面部几何形状、特殊化妆或标记或主动照明。

音频驱动的面部模拟技术也吸引了很多研究。由于在语音过程中很少建模表达视觉行为,Yong et al.[Cao et al., 2005] 依靠语音相关高保真面部动作数据库的机器学习方法来解决这个问题。 Tero et al.[Karras et al., 2017] 实时由低延迟音频输入驱动 3D 面部动画。基于神经网络的端到端模型推理速度较慢,合成语音通常不鲁棒,即某些单词被跳过或重复。但是,Yi et al. [Ren et al., 2019] 注意力对齐从基于编码器-解码器的教师模型中提取,用于预测音素的持续时间

基于图像的系统与基于模型的系统完全不同,完全不同 Iordanis 介绍的系统。 Kang et al.[Liu et al., 2008] 提出了基于图像的面部动画系统,该系统使用主动外观模型来准确检测人脸的特征。 Kang et al.[Liu and Ostermann, 2009] 连接数据库中适当的嘴图像,使其与之相连 2009 年说话人的口语相匹配。2011 年,他们[Liu and Ostermann, 2011] 该系统提出了一个基于图像的演讲者,该系统可以在给定任何文本输入和面部表情控制标签时合成语音的逼真面部表情。 Sarah et al.[Taylor et al., 2016] 从声学特征窗口到视觉特征窗口的映射,提出了滑动窗口深度神经网络。 Chen et al.[Chen et al., 2013] 基于图像提出了一种 3d 非刚性配准过程。在 Cao et al.[Cao et al., 2013a] 提出的模型中,面部标志点的 3D 网络摄像头的位置 2d 视频帧中的回归器推断。他们通过 RGBD 相机捕获了 150 名年龄在 7-80 背景不同的人[Cao et al., 2013b]。 Chen et al.[Cao et al., 2014] 提出了一种不需要对每个单独用户进行任何校准的方法。但它显示了最先进的技术,如需要时间校准步骤。 Chuang et al.[Chuang and Bregler, 2002] 运动捕捉数据和 blendshape 面部动画是插值的组合。在传统的表情动画制作过程中,动画的逼真效果往往需要大量的人工干预。因此,真实性和效率仍然是人脸表情模拟研究的主要指标。动作捕捉技术是近年来发展起来的一种新的数据采集手段,可以实时记录和还原表演者的动作。将动作捕捉技术应用于制作面部表情动画。因此,近年来,动作捕捉技术在面部表情模拟研究领域越来越受到重视。 Assia et al.[Khanam and Mufti, 2007] 一种新的方法是将敏感的面部表情与上下文混合,以增加灵活性和智能性。 Salil 的 [Deena and Galata, 2009] 面部动画是通过使用共享高斯过程潜变量模型来建模面部运动和语音之间的映射。在 Meng et al.[Meng and Wen, 2019] 在研究中,嵌入长期和短期记忆网络 (LSTM) 网络学习帧间的变形。

人类通过面部表情来表达内心的感受,比如快乐或愤怒。如何使计算机自动识别表情是一个热门的研究领域,吸引了许多学者投入精力和时间。表情识别系统的关键是提取具有较强鲁棒性和表达能力的图像特征。各种人脸 3d 该模型已用于计算机图形和计算机视觉。 Marc et al. [Habermann et al., 2019] 该模型是第一种用于全身性能捕捉的实时单目方法。 Kettern et al.[Kettern et al., 2015] 该模型提出了支持任何数量的摄像头的模型。

面部表情模拟在虚拟现实、认知科学、人机交互界面设计和在线视频会议等领域吸引了大量的研究。真实性是表情模拟的关键评价标准之一。人脸动画也是为基本的视频输入而设计的,但它们对光流或特征跟踪的严重依赖可能会导致不稳定。在动画、游戏和影视制作中,面部表情往往起着不可或缺的作用。张等人。 [Zhang et al., 2014] 2014 基于蒙特卡罗的方法,每年提取一组 Gabor 人脸模板,并将其转化为模板匹配距离特征。模板匹配的距离特征取决于特定表达式数据集中的模板选择,跨数集的性能难以保证,泛化能力不强。另一种特征重建方法是学习生成模型,该模型可以从被遮挡的人脸中重建完整的人脸[Pan et al., 2019]

本文的突出贡献可以总结为:

  1. 建立了从视频序列到 blendshape 权重和 2d 面部标志的实时面部捕捉框架。
  2. 提出了一种自适应回归蒸馏(ARD)框架,可以过滤错误标记的数据,确保学生网络在正确的轨道上训练。

Methods

在这里插入图片描述

这篇文章提出的核心网络叫 DFCN (Distill Facial Capture Network),推理时,输入是图像,输出是相应的 blendshape 的权重 e e e 和 2D landmark S S S。

通过模型拿到权重e之后,就可以通过以下公式得到 3D 面部 mesh F F F。其中 B B B是blendshape,通过苹果的Arkit模型获取,有52个动作单元,用于描述面部表情。

预测阶段加了后处理的滤波器,主要采用的是Kalman滤波器和Savitzky-Golay(SG)滤波器。可以有效的减少帧与帧之间的数据抖动,对于landmark和blendshape权值数据都有可观的平滑效果。

需要包括下面四种数据:

  1. 标准的表情:先让演员做出一些极限位置的表情。比如:尽可能张开嘴巴,尽可能将下颚侧向和向前移动,撅起嘴唇,睁大眼睛然后强迫闭上。这样是为了捕捉到最大的面部动作。同时也需要一些正常的面部表情,如眯着眼睛或厌恶的表情。夸张表情和正常表情都必须包含在训练集中,否则神经网络将无法识别它们。
  2. 特殊的表情:这个数据集是演员们全力扭曲的表情,这样神经网络才能更好地学习到这些夸张的表情。
  3. 正常说话:这个数据集利用了一个事实,即演员对角色的表演通常在情感和表达范围方面存在严重偏见。演员可能会有符合角色设定的台词,以确保经过训练的网络产生符合角色的输出。
  4. 夸张说话:这一数据集记录着演员在说话时可能达到的最夸张的程度。

训练数据的blendshape weight 是由他们公司开发的avatory生成的。做了亮度、随机padding,对比度等数据增强。

训练采用了蒸馏,loss设计: 他们称其为自适应蒸馏(ARD, adaptive regression distillation),本质是,当数据点是一个异常值时,让学生从老师网络的输出值学习。如果不是异常点,就让学生学习真实的数据,而不是老师的“半对半错”的数据。这里,v大于1,表示当学生目前学得还不够好时,给一个更大的损失,促进学生的学习。另外,m为除了异常值外的数据集,µ为判断点是否为噪声的超参数,b为衡量教师和学生之间的表现差距,由研究者自行设定。此外,需要对几处矢量求欧几里得范数的平方。

个人总结

个人觉得这篇论文的学术性并不是很强,主要贡献在于其在工业界的应用,因为是工业界发的论文,利用自己家平台能直接输出 blendshape weight 的优势,才跳过了landmark,实现从图像直接到 blendshape 的模型训练,结合模型蒸馏,从而加速整个流程,在准确率和实时性的平衡方面达到了工业界比较好的水准。

标签: 3050al旋转传感器bradley端子块定时继电器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台