资讯详情

17 年微软老兵,非典型跨领域 AI 科研之路

1693e0cbe31285e0725fa3b155ccd7cc.gif

受访者 |罗翀

记者 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

「AI 技术生态论」 人物访谈栏目是 CSDN 百万人学 AI 倡议的重要组成部分。 AI 顶级生态咖啡、企业家、行业 KOL 访谈反映了其对行业的思考、对未来趋势的判断、技术实践和成长经验。

本文为 「AI 技术生态论」微软亚洲研究院高级研究员罗冲在系列采访的第二十期谈话中畅谈了她AI非典型的研究过程。

百万人学 AI 你也有一份!今天点击阅读原文报名!「2020 AI开发者万人大会」,使用优惠码AIP211,可免费获得价值299元的网上直播门票。

今年在微软亚洲研究院举行Ada Workshop最后,一位计算机跨境研究员引起了大家的关注:微软亚洲研究院高级研究员罗冲用她温柔坚定的声音向我们讲述了她非典型的研究经验、幸福的家庭生活和女性研究人员的独立精神世界已经成为许多观众朋友的榜样。

罗冲于2003年成为微软的一员。在过去的17年里,她在计算机视觉、语音、云计算等领域取得了许多成就。她对这些技术有什么独特的理解?如何克服技术困难?

对此,本期「AI技术生态论」本专栏将采访微软亚洲研究院高级研究员罗冲,了解上述问题。

罗翀

早在复旦大学攻读本科课程时,罗就开始接触自然语言处理和人脸检测和识别技术。在新加坡国立大学攻读硕士学位(2000-2002年)期间,他主要研究视频中的人脸跟踪技术。从2003年到2011年,罗从事多人视频会议,P2P网络、无线传感器网络、多媒体云计算研究。

2012-2016年,她研究了伪模拟视频传输、联合信源-信道视频编码。自2017年以来,罗冲一直专注于计算机视觉、语音处理和多模态视频理解。

虽然自从罗冲开始科研以来,不同时期的研究方向略有不同,但她说,总的来说,她围绕视频的生命周期做了一些工作。

目前,罗冲的研究重点是视频中视觉和听觉信号的处理和理解。计算机视觉、智能语音、跨模态视频理解等研究领域。在计算机视觉方面,研究兴趣主要集中在视觉目标跟踪和视频表征学习上。在智能语音方面,罗冲和团队开发了行业领先的语音噪声去除技术,并成功转化为微软Stream在视频流服务中,预计很快就会与您见面。在注重图像、声音和语言的协同表达和跨模态检索。

目前,罗冲所在的微软亚洲研究所智能多媒体集团主要关注文本、图像、动画、声音等媒体信息的综合处理,构建新一代智能视频分析系统。细分的研究方向包括计算机视觉、智能语音、跨模态分析、人类行为理解和场景理解。

经过近20年的科学研究,罗冲承认科学研究的道路并不平坦。

如今在镜头前谈吐自如、拥有丰富人生阅历和研究成果的“人生赢家”——罗翀,在走上科研之初和很多职场“小萌新”一样:

研究主题往往是不可持续的,并且有强烈的依赖心理,总是希望别人能告诉她下一步该做什么。一旦你收到了一个明确的话题,你就可以高质量地完成它,但在完成,你就会感到困惑:接下来该怎么办?

特别是在微软亚洲工业研究所,罗冲必须考虑如何平衡研究的学术价值和对公司产品的贡献,所以她会不时陷入困惑和焦虑。

这种困境不是一朝就能走出来的,但是过了这个阶段再回头看,明白以下几点很重要:

一是,主要研究方向的来龙去脉及相关技术工具。

二是而是多想想这个研究课题有哪些技术途径,甚至为什么这个研究课题有研究价值。

三是总的来说,这是一个非常痛苦的成长过程。幸运的是,微软亚洲研究所提供的开放学术环境、强大的支持资源和许多高水平的研究人员帮助她顺利度过了这个阶段。

谈到科研技术,罗冲滔滔不绝:

在过去的三年里,她和同事们对视觉目标跟踪进行了深入的研究,取得了丰硕的成果。

罗说,人类婴儿有能力在两三个月内固定视力,并将视力固定在物体上以跟踪其运动。这种能力也是婴儿了解世界的基本能力。但这对计算机来说是一项非常困难的任务。

经过罗冲和团队的研究,提出了多种视觉目标跟踪方法。今年将是CVPR(IEEE由国际计算机视觉和模式识别会议组成的IEEE在计算机视觉和模式识别领域的顶级会议上发表了一项有趣的研究成果,即基于元学习的目标跟踪。这不仅是一个独立的目标跟踪器,也是一个目标跟踪器的设计理念和框架。

在智能语音方面,罗冲更注重语音去噪、语音分离和演讲者分类。2019年Ignite会议上,微软 CEO 萨提亚·在主题演讲中,纳德拉特别展示了罗冲团队在语音去噪方面的最新研究成果。

上面提到的微软很快就会见到你Stream视频流服务中的语音增强功能是罗冲团队的最新结果。

Stream用于上传、共享、管理和查看可用于教育、培训和跨公司信息共享的企业视频。在Stream相当一部分管理视频是在噪声不可控的环境中录制的,严重影响了观看体验。罗冲团队开发的语音增强功能不仅极大地抑制了环境噪声,包括城市噪声、家用电器噪声甚至噪声,而且最大限度地减少了扭曲,为用户提供了舒适的听觉体验。

在传统的语音噪声去除技术中,人们只对声谱图的范围信息进行噪声去除和预测,而不涉及相位信息。由于后者没有显示者没有显示清晰的结构信息。罗冲的研究创新地利用双深神经网络同时预测和确认声谱图的范围和相位信息,从而获得更清晰、更小的失真噪声去除语音。

如今,大量数据的涌入推动了对多模态内容理解的研究,多模态检索是实际需求较大的方向。微软亚洲智能多媒体集团已经将多模态表征学习作为主要研究方向。

罗说,事实上,早在20世纪90年代多媒体领域崛起时,多模态学习和检索就引起了研究人员的注意。当时,人们通常根据常识和先验知识手工设计一个公共空间,嵌入多个模态数据,以便进行有效的检索。然而,这种方法需要获得大量标记和对齐的多模态数据。

近年来,随着深入学习的发展和无监督预训练技术的提出,罗冲和团队成功摆脱了对标记数据的依赖,显著提高了系统的整体性能。

但她说,工业界和学术界对预训练的态度似乎有很大的不同。学术研究人员通常没有计算能力进行有效的预训练。微软、谷歌、脸书等少数行业巨头的研究人员完成了大部分预训练相关工作。在这种硬件条件的限制下,学术研究人员更倾向于通过有效的网络架构设计和有效的人类知识来实现可解释的人工智能。

罗翀认为,

疫情期间,AI技术在疫情预测、疾病诊断、防疫管理等方面表现出了很强的能力。

而罗翀更关注的是防疫常态化后人们工作、学习模式的改变,以及AI如何在新的工作和学习模式下为工作者、教师和学生提供便利。例如,目前,许多学校都进行了在线录音和广播教学。教师在录制视频时可能会被家里的狗吠或家人的声音所干扰,智能语音工作可以很容易地帮助教师消除录音过程中的噪音,避免重复工作。

另一个例子是,目前工作人员的会议基本上从线下变为在线。微软等许多在线会议软件Teams,提供会议视频功能。

label>成长型思维

谈到未来两三年的科研之路,罗翀表示会把大部分精力放在多模态视频理解和分析上。一方面,通过对图像、声音、文字等多种模态的联合学习,获得对视频整体上的更好理解。另一方面,也是更有趣的是,利用海量的视频数据中多种模态的自然对齐,在无监督学习的框架下加强对各种模态的理解和特征表达。

罗翀在做线上分享时,笔者看到很多在校女生和女开发者都在为罗翀点赞,为他们树立很多的榜样力量。

罗翀谦虚道,她很喜欢自己目前的工作、生活状态,同时也清楚有很多需要改进和努力的地方。感恩在成长路上父母师长的教诲,家人朋友的支持,还有自己的不懈努力。

微软CEO纳德拉在2014年成为掌舵人之后就立即着手推动企业文化的改变,重新塑造了以成长型思维模式为核心的微软新文化。而她也从成长型思维模式中获益匪浅,所以也不断“安利”给大家。

挫折。”罗翀以此来结束本次采访。

简介:罗翀,微软亚洲研究院高级研究员,博士,IEEE资深会员。2003年加入微软亚洲研究院,现任智能多媒体组(Intelligent Multimedia Group)高级研究员,中国科学技术大学、西安交通大学兼职博导。长期从事视频通信、多媒体云计算、计算机视觉等领域的基础理论和应用研究工作。在无线传感器网络中基于压缩感知的数据采集技术、无线网络中视频伪模拟传输、以及视觉物体跟踪等方面做出了开创性工作。先后在ACM MobiCom、IEEE Infocom、IEEE CVPR 等顶级学术会议上发表多篇论文,拥有十余项国际专利。曾获得上海市计算机学会2005年至2015年期间“上海市网络领域最有影响力论文奖”。

「AI 技术生态论」系列精选阅读:

  • 看似毫不相干,哲学与机器学习竟有如此大的交集?

  • 那个分分钟处理 10 亿节点图计算的 Plato,现在怎么样了?

  • 35 岁以下科技创新 35 人之一,这位博士解开美团 AI 的冰山一角!

同样作为“百万人学 AI”的重要组成部分,2020 AIProCon 开发者万人大会将于 7 月 3 日至 4 日通过线上直播形式,让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验,同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动,不仅可以与上万名开发者们一起交流,还有机会赢取直播专属好礼,与技术大咖连麦。

门票限量大放送!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。快来动动手指,免费获取入会资格吧!

,直达大会官网。

标签: id压缩型传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台