谷歌研发新型深度学习系统,能够在嘈杂环境中识别分离语音

猎云网  •  扫码分享

谷歌研究员开发出了一种深度学习系统,能帮助计算机在嘈杂的环境下识别和分离语音。

正如本周公司在Google Research里公布的那样,谷歌的一支团队想要模拟出人类大脑的“鸡尾酒会效应”,即某个人在谈话之中会忽略背景中其他的对话或噪音。

谷歌采用了一种视听模式,因此其主要任务就是将视频里的语音分离出来。这家公司表示,这种技术能通过算法,分离出单音轨视频中的语音,你可以手动选择某个人物,那么就会播放这个人物的声音。

谷歌表示,视觉成分是这里的关键,这种技术会观察某个人嘴部的活动,从而更好地确定要识别哪个语音,从而创建出更加精确的个人音轨。

根据博客的内容,研究人员在开发出这个模式的过程中,搜集了YouTube上10万多份演讲和谈话,并从中提取了2000多小时的有效片段,并将这些声音混合,并加入人工智能背景噪声,创建了一个“模拟鸡尾酒大会”。

随后谷歌就开始训练它通过解读人们的“脸部微小动作”以及视频的频谱图,将这份混合的音频分解掉。这个系统能理清哪个声源属于哪一张脸,并为每一个人创建自己的音轨。

谷歌表示自己期待这种技术能“在众多宽泛的情境下得以应用”,目前自己正在尝试将它整合到现有的谷歌产品中。Hangouts和YouTube似乎是两种容易应用的地方。另外我们也不难预见,这种技术也能在语音放大耳机以及智能眼镜,也就是Google Glass上得到应用。

和Google Home这些智能音箱进行的语音识别不同,这种技术似乎更适合让讲话者配一台屏幕,因为它的模式就是基于视频的。今年早期,谷歌对Echo Show等“智能显示屏”设备开放了Google Assistant,但这家公司目前还尚未推出自己的产品。

AD: 进击•融合 猎云网&AI星球2018年度人工智能产业峰会 将于4月17号在深圳大中华希尔顿酒店举行。这里有最深度的思考,最有价值的投资建议,以及最酷的黑科技展示,精彩不容错过。

随意打赏

谷歌语音
提交建议
微信扫一扫,分享给好友吧。