背景介绍
2019年是电子商务直播爆发的一年,被称为电子商务直播的第一年。2020年,随着电子商务直播的不断发展,越来越多的平台开始致力于直播带货业务。淘宝直播作为电子商务直播的第一个平台,已成为连接数亿锚和粉丝的桥梁。
直播传递信息的方式无非是声音和画面。声音作为第一媒介,需求主要包括以下两部分:第一是音质,良好的音质可以让人产生声音的感觉,声音刺耳、间歇、音量过大或过小,会让人听起来不舒服,影响购物体验;第二是互动体验,视觉互动已经广泛熟悉,但声音互动实际上更自然,如锚通过语音控制红包、送货,粉丝通过语音新闻与主播互动,或通过语音小麦与主播沟通;此外,语音在安全控制方面尤为重要。在防盗广播和涉黄涉政方面,可以通过语音识别异常。
在短视频中,对声音的需求越来越大。随着2020年底点淘、逛逛等新业务的推出,短视频成为内容业务发展的新引擎。为了帮助商家更方便地制作高质量的内容,亲拍APP随后推出,大大提高了编辑效率,成为淘系商家制作优秀短视频的有力工具。同时,亲拍APP深度编辑功能还提出了变速、混音、快速播放、语音降噪、自动字幕、语音旁白等大量音频需求。
音频业务解决方案TaoAudio
TaoAudio是面向直播和短视频声音需求的完整解决方案。它分为音频处理、音频安全和语音交互三个主要模块。TaoAudio支持端云一体化部署部分模块部署在端侧,如音频编解码、降噪、场景检测、水印等,可充分利用端计算能力,实现低成本实时处理,另一部分模块部署在云上,如语音识别、语音合成,确保算法的精度和效果。同时,TaoAudio也有友好的部署方式,通过JNI和Object-C实现跨平台调用,上层只需配置模板并发送到音频数据,即可持续获取处理后的声音或标签,实现极低的接入成本。
短视频音频技术架构
音频直播业务的三个核心需求是实时、安全、互动。面对众多的音频需求,如果只为业务层提供算法原子能力,集成和联合调整的成本业务层难免会遇到一些与音频专业相关的问题,难以解决。TaoAudio抽象需求共性,实现实时音频流的检测和处理,如下图所示TaoAudio连接上层业务,推动底层,让业务音频需求与底层推流解耦,收到与业务音频相关的所有需求和问题TaoAuido这对提高音频需求的效率和加快迭代优化速度非常有帮助。
NUI SDK
NUI SDK提供语音合成、语音识别、关键词检测等智能语音交互功能。
音频检测
音频检测模块实现了现场声学场景和声学事件的检测功能。具体算法包括:人声检测、噪声检测、音乐场景检测、性别识别等。整体算法理念是基于深度学习和信号处理。
音频处理
音频处理模块包括声音自适应混音、语音重采样、语音变调变速、音效处理、语音降噪等。核心是自主研发的智能降噪Alidenoise和音效处理Soundmod SDK,能很好地满足上述需求。
在非实时通信业务中,由于没有实时音频采集和回声消除,TaoAudio它可以以更简单的形式存在,我们称之为智能数字音频工作站(intelligent digital audio workstation,以下简称iDAW)。如下图所示,在iDAW在里面,我们可以有多个音轨(track),每个音轨的来源(source)可以是音频片段(audio clip),一个音频流(audio stream),或者符号序列(symbol sequence)。每个track的结构如下图:
其中,黄色代表输入,绿色代表输出,虚线代表可有可无。track周围有三种audio的变换。
一种是符号-音频的转换,可以理解为audio generator,输入符号序列,输出音频,例如TTS属于这种变化;
二是音频符号的转换,可以理解为audio analyzer,输入音频,输出符号序列,如VAD、ASR属于这种变化;
第三种是音频-音频的转换,可以理解为audio processor,输入音频,输出音频,如上述soundmod里面的所有变化,以及3A里面的ANS、AGC等。
每个track混音后的音频可通过重采样进行混音,输出如下图所示:
在TaoAudio里面,一个iDAW对应一个TaoAudioWorker(TAW)实例。整个TaoAudio使用基础架构C 实现,目前支持audio generator有NUI SDK语音合成,audio analyzer有NUI SDK语音识别、唤醒词识别和文件快速转写,以及我们的整个音频检测系统,audio processor有soundmod和alidenoise等。
TaoAudio为调用人员提供适当的连接能力和处理能力,不同的业务可以通过各自的需要,通过TaoAudio定制出自己的整个音频工作链路。例如,在短视频制作工具中使用TaoAudio几乎所有与音频相关的业务都可以无缝对接,例如,自动生成旁白(TTS)、字幕提取(ASR)、自动去除空白(VAD)、原声增强(soundmod)、变速变调(soundmod)、降噪(alidenoise)、声音美化(soundmod)、生成背景音乐(chord-arranger)等等,每个功能都可以track添加并连接单位。
TaoAudio核心音频技术
TaoAudio底层核心技术作为一套音频业务解决方案,主要涉及两个方面:一个是音频处理技术,另一个是语音交互技术。其中,音频处理包括:智能语音降噪、智能声学场景检测、音效处理、回声消除、音频指纹和音频水印技术;语音交互技术主要包括:语音识别、唤醒、语音合成、敏感词识别等;
传统的语音降噪算法速度快,计算消耗低,可以在各种低端设备上运行。然而,面对复杂多变的不稳定噪声和低信噪声比环境,传统方法的效果并不令人满意。基于学习和数据驱动的降噪算法在真实的噪声环境中表现出突出的优势,并取得了良好的效果。
但由于参数多、模型大、复杂性复杂,这种基于学习的方法解释性差,稳定性难以控制,泛化能力难以保证,缺陷难以调查。由于这些问题的存在,基于学习的方法常被称为不可观察和不易调整的黑箱。同时,虽然基于学习的算法具有突出的听觉效果,但与传统算法相比,复杂性高,操作速度低,功耗大,更容易导致硬件加热、系统降频、程序卡住等问题。
为了给用户带来最好的音频体验,淘技术音视频算法团队在反复研发、试错、创新、降噪效果、质量、算法速度、能耗、延迟、泛化稳定性等方面应用了一系列技术,最终开发了智能语音降噪算法Alidenoise。
1)传统的信号处理方法与深度学习方法相结合,具有处理不稳定噪声和算法复杂性低的特点
2)在神经网络设计中,结合训练目标,以人声语谱线为主要学习对象,噪声泛化性强,语音保真度高
3)采用Cache buffer实现流式处理的技术
4)轻量小模型, 支持移动终端实时增强,覆盖低、中、高设备
5)网络模型配置灵活,支持降噪算法延迟可调
多媒体对淘宝直播和短视频的需求日益增加。在基本的通信链接和上层业务需求中,声音和音频需求层出不穷。
需求的增长与基础技术的发展成为主要矛盾。因此,我们提出了多任务智能声学场景检测项目,并逐步实现。
1)信号处理:为了提高声学场景检测的泛化性,我们提取了声学信号处理的音频特性,如fft频域、mfcc、lpc经典有效的特征,如系数和基音周期,不仅可以表示声音信号,还可以有效地降低声音向量的维度。
2)端侧AI:端上轻量化模型是声学场景检测的主要关键。我们从经典中学习MobileNet、ShuffleNet采用矩阵分解、分组卷积、小卷积核等卷积优化中轻量化模型技术,全球池化取代重型全连接,尝试空卷积对模型轻量化的优势。为了在端侧获得更高的适应性,模型采用量子化,进一步降低计算消耗,使用短时记忆单元提高上述信息量,保证算法效果。
3)多任务联动:在声学场景自适应的多任务中,我们共享卷积特征的权重,有效提高任务的泛化性。同时,在相关任务中设置一级分类和二级分类相关设计,不断有效提高二级分类的准确性,如人声检测是否为一级分类,性别检测是否为二级分类者之间的联动可以使性别检测更加准确。
4)能力迭代扩容:随着场景检测算法和上述玩法之间的相互促进与丰富,检测类目的需求会动态地、甚至敏捷地变迁。为了在此业务场景下保证检测能力与需求俱进,我们将借助迁移学习与增量学习技术,敏捷升级识别能力,快速反应逐步扩充的检测需求。
5)业务承载:多任务的智能声学场景检测,承载着两大类业务。第一类淘宝直播通讯场景的自适应增强业务,比如检测不同的嘈杂程度、是否音乐来进行配置不同的算法参数,利用不同性别年龄检测来配置不同的美声需求。第二类是业务需求,比如轻直播的人声检测需求,空镜检测的人声检测需求,音乐可视化的音乐检测需求等。
我们有一套完整的从音频到音频的变换工具Soundmod SDK,它支持对音频进行实时的和离线的处理,Soundmod支持的处理包括了最常用的“三大件处理”(动态压缩、均衡、混响)、变速不变调、变调不变速、男变女女变男,也包括了其他常用的效果,比如合唱效果、颤音效果、延时效果、哇音效果、声码器效果等等:
phaser vocoder类音效:time-stretching、pitch-shifting、vocoder、robotic、whispering
delay类效果:delay、chorus、flanger、vibrato
dynamics类效果:compressor、limiter
filter类效果:equalizer、autowah、phaser
modulation类效果:ring-modulation、tremolo
spatial类效果:reverb
下面是一个音效处理Demo视频:
NUI SDK(Natural User Interaction)是阿里巴巴达摩院语音实验室全自主研发的语音全链路方案。
方案聚合端和云的核心算法能力,包括信号处理,语音唤醒,语音识别,自然语言理解,语音合成,声纹识别等,具备完整端云一体语音能力。
方案通过能力可插拔组合的方式,实现一套SDK满足不同产品的语音需求。
方案支持iOS/Android操作系统,集团内外累计激活设备3.7亿+。
淘宝直播场景作为丰富的语音技术使用场景,在应用内存在多种对语音能力的使用。例如“CRO敏感词检测”使用了“离线命令词识别”,“评论播报”使用了“在线语音合成”,“直播看点”使用了“在线语音识别”,以及后续还可能上线的其他功能会有更多能力的扩展。这就要求我们的SDK具备多实例并行的能力,能够使得不同调用业务之间可以并行不受影响。因此在本次淘宝直播和达摩院的共建中,语音实验室完成了NUI SDK的全面升级,将原有的面对交互场景的SDK扩展为更加灵活,可支持多种原子场景独立使用的版本。
直播场景是算法技术使用非常密集的场景,信号处理,RTC,敏感词检测,视觉算法等等都在这个场景下全速运行,这意味着对于CPU的消耗非常大,同时App对包大小有着严格要求。语音实验室全面升级命令词检测技术方案,采用MNN推理框架,并同MNN进行了深度优化,在实时率上提升明显。通过“PAI模型压缩”技术将唤醒模型量化到INT8计算,进一步减少模型大小,相对对上一代方案减小50%。再者通过直播端侧的模型下发链路,能够将模型进行云化,进一步减小App包大小。
应用案例
语音播报功能给主播提供的是直播间用户意图的声音提醒能力,该功能是通过语音,将粉丝进入直播间、粉丝评论和粉丝连麦申请等行为在主播手机中播报出来,目的是提醒主播当前直播间的实时动态,做好接待客户的准备。语音播报功能直接涉及到的语音技术点,主要包括:文字转语音TTS、语音混音、信号重采样以及语音数据流管理和控制等。
除此之外,播报声音要在一边推流的情况下一边播报,所以还涉及到播报声回声消除,防止播报的声音被粉丝听到。另外,语音播报具体实现在业务上层,回声消除是音频底层技术,如何协调好两者之前的关系,相互配合好达到好的效果体验,具有一定的挑战性。
TTS是语音评论播报的基础,评论在主播端播报之后会被推流的麦克风采集,如果不进行处理会导致直播间所有粉丝都听到播报声。消除本地播报的声音,可以使用回声消除技术,ARTC底层有回声消除算法,但是不支持本地播放消除,经过对ARTC层系统的改造,实现了播报声消除的功能。
但是,当主播讲话时进行播报,会形成回声消除“Double Talk”抑制过大问题,导致主播声音损伤严重。为了解决该问题,从两个角度出发,一个是播报时优化回声消除算法,另外一个通过主播说话智能检测控制播报声音减小或者不播报。最终通过算法优化,解决了播报消除导致主播语音损伤的问题,使评论语音播报功能体验更佳。
在短视频领域,口播类的短视频在商品介绍的短视频里面占了绝大多数。口播编辑能让短视频生产者很轻松的剪掉不必要的长停顿,多余的字句,以及字与字时间的琐碎的停顿。这个功能的核心技术是语音识别和字幕转写对齐的服务,如下图所示:
一段长音频通过在端上的分片分成以1分钟为单位的音频切割文件(segment),传输到服务端,服务端拿到文件之后先进行一次极速文件转写(transcription),这个转写的过程需要与NUI服务进行交互,拿到结果转写结果之后,把结果和原音频一起送到强对齐算法(forced alignment),输出带时间戳的逐字转写结果(aligned transcription)。使用了该功能之后,能让这一类口播视频的生产达效率大幅提升。
在口播的短视频里面,人声是前景声,其他声音一般都是背景声。背景声有时是有用的声音,比如背景音乐,或者和讲解场景或物品相关的关键性声音;有时是无用的声音,比如商场内的嘈杂声音,或者马路上的噪音。业务上通常有一种需求是去除无用的背景声音,以让前景声音变得更加突出,让短视频里面所呈现的信息更加清晰。淘宝音视频算法团队自研的智能降噪算法Alidenoise已经集成到TaoAaudio中,经过和竞品降噪能力对比表明Alidenoise降噪效果优于竞品,且处理的实时率能达到1%,目前智能降噪能力已经输出给短视频编辑业务使用。
下面展示一组对比音频:
原始音频:
竞品降噪:
Alidenoise降噪:
为了提升直播时宝贝转化的效率,优化用户观看直播时的购物体验,淘宝直播向所有商家主播、达人主播,提供了“直播看点”的功能。直播看点有两种形式,一种是主播手动打点,另外一种是智能打点。智能打点主要根据直播视频中的目标识别进行自动打点,主播口播为智能看点提供了另外一个维度的信息,使用语音识别技术把口播语音全部转成文字信息,再使用语义理解技术提取主播所介绍的商品信息。
直播看点ASR完整的功能实现涉及到语音识别、信号重采样、语音降噪等技术,其中语音降噪的选择对识别的准确性有较大的影响。除了把声音内容作为打点的特征,还可以从声音类型的角度出发,检测当前主播是否在说话、直播间是否有音乐,或者处于哪种声学环境,把声音作为一个维度信息进行直播间的推荐。当前TaoAudio已经具备上述技术能力,能够快速辅助业务实现对应的功能。
评论区作为直播间的核心互动功能,可以通过评论提升直播间互动率和用户直播间停留时长。直播评论如果只有文字的话,形态比较单一,语音评论可以让粉丝在观看直播的时候用语音进行评论,使粉丝和主播的互动更加有趣。
语音评论技术链比较长,涉及到客户端语音采集、编解码、播放、语音识别转文字和服务端语音存储、内容审核,在主播端,主播播放出语音评论,还涉及到声音的控制和回声消除算法。语音评论链路上所涉及到音频相关的需求,TaoAudio均能很好的满足。
短视频里面需要有旁白,这些旁白可以是机器生成的人声,或者真实录制的人声。很多时候用户不希望自己的真实声音出现在短视频中,便会选择生成的声音作为旁白,或者对自己录制的声音进行各种音效处理以隐藏自己的真实声音。
在淘系的短视频制作工具MAI编辑器和亲拍APP中均都接入了TaoAudio的文字转语音的功能,这些功能可以很方便的生成不同音色、不同语速、不同语调的人声。在有人声的基础上,用户可以很自由的对人声进行各种变换,包括变速、变调、变声、美声等等,这些技术均可通过TaoAudio内集成的Soundmod实现。
总结&展望
总的来说,当前TaoAudio作为内容平台的音频解决方法,支持了多种音频相关的业务需求,从刚开始遇到的各种问题,到现在问题逐步的收敛,SDK的功能越来越稳健。淘系技术音视频团队会继续丰富算法能力,比如AI结合的语音增强、智能音频检测、短视频自动配乐,音乐理解和生成,同时达摩院语音技术团队在不断优化升级语音交互性能,例如和MNN共建的端上唤醒技术、离线语音识别等也都相继要上线来满足直播业务的需求。
未来,TaoAudio将基于现有的功能继续打磨,保证稳定性的同时进一步提升体验,并且将朝以下几个方向继续发展:
1)算法能力扩展:丰富直播互动音频类算法,从音频层面支持更多业务玩法和功能需求
2)端侧AI:结合传统信号处理和AI,提升算法效果,基于MNN框架提升算法效率,实现大部分音频AI算法端上部署,比如端上ASR技术,智能VAD技术,智能PLC技术等;
3)云端一体:端云相互配合,实现云端部署复杂算法和功能的能力
欢迎业内专家朋友们前来交流:zhuangshu.wlb@alibaba-inc.com
✿
|庄恕,虫娃,屠零,远至
橙子君
阿里巴巴新零售淘系技术