如今,对于听力障碍的人来说,听不到的声音是可以触摸的。 东京大学和索尼计算机科学研究所听不到的语言(CSL)共同研发的 AI 系统「Derma」实现的。有 Derma 系统,只要将传感器贴在喉咙周围的皮肤上,利用喉咙和下巴的皮肤振动,口腔形状就可以转化为声音。
语言可以触摸
根据疾病的严重程度,目前治疗听力障碍的主流手段包括: 药物治疗:通过静脉点滴或局部滴药(如激素、抗菌素、抗病毒药物等)消退炎症,使听力尽快恢复; 手术治疗:主要针对外、中耳畸形、各种压迫咽鼓管疾病、耳外伤等; 仪器辅助:如助听器(听力损失程度≤80dB)、人工耳蜗(听力损失程度>80dB)。 其中,人工耳蜗植入是恢复重度和极重度耳聋患者听力的唯一有效途径。 雷锋网了解到,早在 1957 2000年,法国科学家首次将电极植入全聋患者耳蜗中,让患者感受到周围环境的声音。直到上个世纪 90 人工耳蜗进入临床应用阶段,给极重度耳聋患者带来了新生。 实际上,人工耳蜗的发展离不开电子技术、计算机技术、语音学、电生理学、材料学、耳显微外科学的发展。在这些学科兴起发展之前,科学家对听力障碍患者的反应是一种叫做 Tadoma 的触诊唇读法。顾名思义,这种疗法是指听力障碍患者用手指触摸说话者的嘴唇、下巴和脖子,读取说话者想要表达的内容。 以上日本团队研发 AI 系统 Derma 起初,灵感来自 Tadoma。
将通过机器学习 Tadoma 自动化
其实团队的设计就是 Tadoma 通过机器学习自动化治疗过程。
就其原理而言,如下图所示,在喉咙周围的皮肤上粘贴一个加速度/角速度传感器,获取下颚和舌肌运动引起的皮肤颤动信息,并通过深入学习进行分析和识别,最终实现无声语音转换为语音输入的无声语音交互(Silent Speech Interaction,SSI)。
雷锋注意到传感器可以获得 12 深度学习可以分析和识别维生素皮肤运动信息 35 声音类型。实验表明,识别皮肤颤动信息的准确性超过了 94%。 值得一提的是,研究团队训练模型采用连接时间分类(Connectionist Temporal Classification, CTC)。
事实上,在语音识别器的训练过程中,很难将输入与输出对齐,因为说话者的语速等因素。为了解决这个问题,连接时间分类是有用的。 就其外观而言,与现有的无声语音交互设备相比,该设备体积小、重量轻、不显眼。此外,该系统功耗低,不易受到环境亮度等因素的影响,不会影响佩戴者的正常生活,可以说非常实用。
此外,研究小组表示,转换后的语音合成不仅可以输入具有语音识别功能的数字设备(语音助手),还可以帮助语言障碍患者进行交流。 未来,该团队的研究方向是可穿戴电子设备和嵌入式计算集成。
基于 AI 沉默的语音交互
近年来,无声语音交互领域蓬勃发展。目前,这一领域的工业和学术理念主要包括 2 条-通过感知气流识别单词(气流采集)和感知肌肉运动来识别单词(EMG 信号采集)。以下是该领域发展的一般时间线:
- 2009 2000年,麻省理工学院感知交流组开发的触觉设备克服了无法清晰识别唇语的障碍,成本比人工耳蜗植入低几个数量级;
- 2016 牛津大学人工智能实验室,谷歌 DeepMind 加拿大高等研究所(CIFAR)结合深度学习技术联合开发唇读程序 LipNet;
- 2016 年,DeepMind 经 1 一万小时的新闻视频训练, AI 唇读精度提高到 46.8%;
- 2019 年,世界知识产权组织公布了微软申请的无声语音输入(Silent Voice Input)专利丰富了机器懂人话的场景;
2020 年 3 1月,浙江理工大学、中国科学院计算技术研究所智能信息处理重点实验室和中国科学院大学共同提出在局部特征层和整体序列层引入相互信息约束,加强口腔特征与语音内容的关系,提高计算机唇读精度 84.41%。 事实上,无声语音识别不仅可以帮助有听力和语言障碍的人,还可以帮助包括灾场、舱外探索、水下作业、工厂车间等场景。 然而,无声语音交互设备需要抛光才能真正成为消费品。微软全球资深技术院士、微软云与人工智能部负责人黄学东博士曾表示: 虽然公开测试和发表的学术文章不能与现实完全分离,但与消费品和商业场景相比,仍需要不同的评价标准。
关于索尼 CSL
正如上面所述,Derma 东京大学和索尼 CSL 共同研发。
中国人民大学出版社 2011 索尼年出版的一本书《索尼研究所的商业哲学》 CSL 索尼董事长所讲述的真相 CSL 经营管理理念。真理雄写,索尼 CSL 遵循小就是美的经营理念,坚持不扩大规模,诞生了众多异类和天才 雷锋网了解到索尼 CSL 成立于 1988 作为索尼的创新工厂,索尼广泛关注计算机科学、生命科学、脑科学和经济学。目前索尼 CSL 研究方向包括「全球议程」(涵盖从能源到食品和医疗保健的问题),「人类增强」(包括探索人类创造力和人机交互/集成的研究)「网络智能」(AI)。 2019 年 11 索尼于1月宣布成立索尼 AI 部门,以利用 AI 激发人类的想象力和创造力 为使命,旨在推进 AI 索尼技术的基础研发 CSL 总裁兼 CEO Hiroaki Kitano 便是索尼 AI 全球负责人。 引用来源: [1] https://www.itmedia.co.jp/news/articles/2003/18/news046.html [2] https://www.sonycsl.co.jp/ [3] https://mp.weixin.qq.com/s/qvq2H7d0p0slydZpXWeJCQ [4] https://baike.baidu.com/item/听力障碍/515092fr=aladdin#5 [5] https://baike.baidu.com/item/人工耳蜗/250269fr=aladdin#1