资讯详情

英雄联盟S11直播延迟30秒,这次网友反应有点不太一样

杨净 萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

直播延迟了几十秒,网友甚至说:?!!

你没听错,发生在这里在全球比赛中,延迟高达30秒。

796f58c54ee43050bace335dd3f423d6.png

要知道S11观众量可是,去年决赛最高,观众人数多达

在这样的顶级赛事中,保证音质和画质的低延迟应该是主要平台,哪怕一点额外的延迟都是绝对不能忍的。

拿前几天Dota例如,直播延迟了15分钟,网友们很生气……

而这回,S11直播,官方频道延迟几十秒——

这似乎是型直播事故吧?

但万万没想到的是,弹幕画风竟然一片“舒适”、“真香”。

怎摸回事?

我们来到这个频道,发现这是B站专门为听障人士推出的无障碍直播间:

与常规直播间不同,这个直播间有AI实时字幕,解释提到的队名T1”、“poke黑话基本上可以正确显示。

赛后采访也有手语讲解,比常规直播间延迟几十秒。

已经有听障人士用过了。

事实上,在这个直播字幕背后,AI实时语音识别技术应用广泛。包括油管直播字幕、谷歌移动设备视频字幕、微软PPT演讲字幕等,都属于这类技术。

然而,目前为直播留下无障碍直播间的平台并不多。

要真正做好无障碍直播间,技术上比普通实时字幕更特别。

我们深入了解它,发现它比想象的要多

无障碍语音识别在哪里?

实时字幕在直播视频编码和解码的中间。

实时字幕是在视频编解码过程中快速识别音频,然后与视频一起输出的效果。整个过程大概是这样的:

简略版流程

可以看出,视频本身也需要通过编解码等传输过程,实时字幕制作在编码和解码之间。

从技术本身来看,实时字幕使用,具体分为人工识别和自动语音识别(ASR)两种。

此前,由于ASR准确性无法提高(尤其是中文识别),人工识别需要几分钟的延迟。大型比赛直播采用实时AI字幕不多。

这些年AI自动语音识别应用于视频技术ASR更多的人制作字幕,具体分为

非流式,指整段输入语音、再输出文字的结果;流式,指像“流水线一样”实时输出转文字结果。

目前的流式ASR它可以实现快速(毫秒级,肉眼看起来实时)的输出,并在训练后达到良好的准确性;但与此同时,它也有很大的优化空间。

对于不同的直播,语音识别方法的选择主要是从考虑新闻直播更注重准确性,娱乐活动直播更注重识别速度。

BUT,对于无障碍,直播也会出现

由于听力受损者无法快速建立视听之间的联系,错误的单词需要更多的反应时间和更高的字幕准确性;此外,转录的单词和句子需要一定的视觉流畅性;最后,活动直播的延迟不能太高。

一方面受语音停顿、音频切割长度、流式等限制ASR目前可以达到低延迟和基本准确性,但视觉阅读的流畅性往往会降低,每个字都会,停顿后看不懂:

每个字都会,就是看不懂

另一方面,流式ASR该模型和输出文本之前,模型需要满足一定长度的音频输入,这取决于语速和说话流畅性的稳定性。

比如主持人通常在电竞团战或者进球前夕语速变得很快(比如华少最早能达到18秒215字),或者思维频繁断句会严重影响流式ASR发挥技术。

流式ASR如果语音识别的结果不经过处理或直接输出,就会出现字幕空白、频繁停顿或大规模爆发输出。

为了使字幕流更稳定(可以输出整个句子),准确性更高,B站立采用讯飞听力技术ASR识别(毫秒延迟)时,选择整个无障碍直播间,为了保证阅读的流畅性,主要做了以下操作:

其一,B站专门梳理了与英雄联盟赛事相关的500 专有词汇包括团队、选手、赛区、游戏英雄名称、游戏术语、解释相关术语S赛名句等,将这些词接入讯飞听力服务器,优化转译结果;

二是针对语速不稳定的情况,在文字处理部分,B站将流式ASR输出的文字,根据阅读习惯进行,使其更符合用户的视觉理解;

第三,针对整体阅读体验,B站专门做了一个,进一步流程化人工复查操作,进一步提高听障人员字幕准确性……

这也解释了B站无障碍直播间略有延迟的原因:提高了字幕阅读体验。

不止实时语音识别技术

事实上,这个,不仅仅是语音技术服务。

比如,了解一下?

B手语翻译的代表人物被邀请到车站教师,由其领导的专业翻译团队提供手语辅助,他们将在赛果广播和赛后采访中提供实时手语翻译。

此外,在每个比赛日,直播间还推出了观看比赛的小助手,即手语教学内容。像网友一样好奇这些热门词汇之前已经一一亮相了。

很多人认为手语辅助功能上线的原因是语音转字幕会出错,手语有助于理解。

事实上,还有更深层次的原因。

韩清泉老师解释说,对于会说手语的朋友来说,如果只有两种交流方式可供选择,他们会毫不犹豫地选择手语因为用手语交流会有强烈的代入感。通过这种方式,听障朋友们就能强烈感受到被这么多人关注着。

至于大家很疑惑的事实上,手语也是有的。像英雄联盟这类全球性的游戏赛事,要想全程手语直播,需要建立一套新的专有名词。

现有的语音实时字幕虽然无法做到准确,但已经能满足大部分听障人士的理解需求。

2006年全国第二次残疾人抽样调查显示,我国残疾性听力障碍人群达到2780万;而根据2017年北京听力协会预估,中国听障人士的数量已经达到,这个数字仍在持续增长。

如今,B站为了照顾这当中一些赛事爱好者的观赛体验,专门开设无障碍直播间,引得不少网友纷纷点赞:

格局大了。

这次的无障碍我真的吹爆!虽然

科技本身应该是无障碍的

放眼整个游戏行业的发展历程,B站这种对残障人士的关怀思考,其道不孤。

最知名的莫过于是2018年9月,微软推出的Xbox自适应手柄——

30厘米长的手柄上有两个大的可编程按钮和19个插孔,可连接到一系列的操纵杆、按钮和开关

即便有些玩家对价格表示不满,因为这款手柄要99美元(人民币700元左右),比普通手柄高出40美元,但当时在业内却引起了不少的轰动以及好评。

B站知名游戏区UP主@-鸦-karas

那一年,这件产品还被评为50大发明之一,并获得意大利电子游戏奖创新奖。

硬件的突破很吸引眼球,但软件上的支持也同样重要。

三大游戏厂商中的另两家,这几年也在软硬件改进上做了不少努力。

索尼早在设计PS4时,就做了许多针对障碍玩家的硬件优化和辅助功能。

例如,(手柄等)按钮可以重新编程、文本转语音(TTS)、文本放大器等功能,都是针对肢体障碍、视障等群体的设计。

在某些需要QTE(快速反应)的游戏中,玩家可以修改手柄按键功能,将反复点按换成长按不放,也能达到连续按键效果。

任天堂系列产品,也都包含了相应辅助功能,包括触觉和听觉反馈、灰度显示、运动控制、反转颜色等玩法,为有障碍的玩家拓宽了可玩游戏范围。

色盲人士看马里奥是这样的(右)

去年,游戏届奥斯卡奖The Game Awards(TGA)还专门设立一项,来鼓励游戏厂商们为残障玩家服务。

不止是产品中辅助功能的更新,现在,更多的科技公司开始关注到无障碍相关的技术研发。

比如,技术。

如Tobii公司的眼动仪,就允许玩家通过眼球移动来控制数字界面,也已经有更多产品支持这项技术;又如Tribe Game的推出的《超点》动作游戏,玩家就能通过眼球追踪技术,完成对整个游戏的操控:

还有众多企业押注的技术。

无障碍游戏就是脑机接口核心应用场景之一。它能让人们只通过意识就完成机械操控、文字输入等操作。

不少科技公司对这项技术投入了研究,其中就包括Steam。G胖表示,Steam正在与开源脑机接口平台OpenBCI合作,共同开发一项脑机接口软件开源项目。

可以明显看到,更多科技公司与平台在关注残障人群“无障碍”体验文娱服务这件事。

而且这个群体,确实不应被忽略。

以往我们多数人只是在电视新闻中看到有企业机构关注他们的现实生计、刚需,但细想一下,这些听障朋友的精神需求,同样是生活中重要一环。

所幸,这样的需求正在越来越被广泛关注。

除了最直接的影响——对残障人士有益之外,本身还有更多额外价值。

对于他们来说,技术人员正在成为智能时代的

如今,数字化智能化服务为大多数人带来便利,但始终存在这样一批被拦截在技术之外的

他们或是不同程度的残障人士,或是行动不便的老年人、又或是那些因为特殊原因不能享受科技福祉的少数群体。

但谁来扛起这个“扫盲僧”的责任——将科技惠泽到更多群体呢?

如前所述,就是那些原本改变这一切的人,所谓的场景,正是技术人员的练兵场。

如何练兵?该往哪个方向练兵?

这就离不开扫盲僧的核心秘籍——企业的“以人为本”价值观。

甚至从某种意义上说,这种价值观是最终实现的关键一环。

即使输出的产品功能再小、技术也不那么前沿,但只要能物尽其用,它所带来的价值就会更加长远。

这次B站是聚焦听障群体,下次也许就是视障群体,再下次可能就是老年用户……细想一下,一个平台最终不正是这么多共同组成的么?

毕竟,科技本身就应该是无障碍的。

如果哪天,地球上不再存在什么“失语者”、“局外人”,技术无障碍的终极意义,也就真正实现了吧。

标签: 4595连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台