谷歌研发新型深度学习系统，能够在嘈杂环境中识别分离语音

猎云网 • 6年前扫码分享

谷歌研究员开发出了一种深度学习系统，能帮助计算机在嘈杂的环境下识别和分离语音。

正如本周公司在Google Research里公布的那样，谷歌的一支团队想要模拟出人类大脑的“鸡尾酒会效应”，即某个人在谈话之中会忽略背景中其他的对话或噪音。

谷歌采用了一种视听模式，因此其主要任务就是将视频里的语音分离出来。这家公司表示，这种技术能通过算法，分离出单音轨视频中的语音，你可以手动选择某个人物，那么就会播放这个人物的声音。

谷歌表示，视觉成分是这里的关键，这种技术会观察某个人嘴部的活动，从而更好地确定要识别哪个语音，从而创建出更加精确的个人音轨。

根据博客的内容，研究人员在开发出这个模式的过程中，搜集了YouTube上10万多份演讲和谈话，并从中提取了2000多小时的有效片段，并将这些声音混合，并加入人工智能背景噪声，创建了一个“模拟鸡尾酒大会”。

随后谷歌就开始训练它通过解读人们的“脸部微小动作”以及视频的频谱图，将这份混合的音频分解掉。这个系统能理清哪个声源属于哪一张脸，并为每一个人创建自己的音轨。

谷歌表示自己期待这种技术能“在众多宽泛的情境下得以应用”，目前自己正在尝试将它整合到现有的谷歌产品中。Hangouts和YouTube似乎是两种容易应用的地方。另外我们也不难预见，这种技术也能在语音放大耳机以及智能眼镜，也就是Google Glass上得到应用。

和Google Home这些智能音箱进行的语音识别不同，这种技术似乎更适合让讲话者配一台屏幕，因为它的模式就是基于视频的。今年早期，谷歌对Echo Show等“智能显示屏”设备开放了Google Assistant，但这家公司目前还尚未推出自己的产品。

AD：进击•融合猎云网&AI星球2018年度人工智能产业峰会将于4月17号在深圳大中华希尔顿酒店举行。这里有最深度的思考，最有价值的投资建议，以及最酷的黑科技展示，精彩不容错过。