巨头暗战智能语音交互，实时翻译为何成又一个风口

砍柴网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

进入2016年，各大科技巨头、投资公司、分析机构等都在不断发布、解读着关于人工智能（ Artificial Intelligence）的各种消息，作为吃瓜群众的我们由此也逐渐知道了很多高大上的“黑科技”。

比如谷歌、百度在干着一件“人工智能＋汽车 ”的大事，即无人驾驶；苹果、微软、搜狗等致力于将人工智能技术与语音服务场景结合，今年8月，搜狗推出全新语音交互引擎“知音”；此外，IBM花了大约250亿美元来收购和完善Watson系统，希望靠人工智能来预测未来，并应用于金融、交通、教育等领域；阿里巴巴、蚂蚁金服在积极探索人脸识别，希望利用人工智能让移动支付更加便捷和安全。

处于风口的人工智能，甚至也出现在了好莱坞剧本中，迪士尼动画《超能陆战队》中的机器人大白就是个典型的“人工智能＋医疗”的产物，它就像医疗伴侣，能够快速扫描、检测出人体的不正常情绪或受伤并对其治疗；就连时下爆红的HBO连续剧《西部世界》也在探讨着拥有自主思维的机器人与人类世界发生的种种冲突和对抗。

尽管在预言家的口中，人工智能将在未来的现实生活中无孔不入，无人驾驶、机器人管家、人工智能医疗方案等等，但目前对于大众而言，我们当下阶段接触到人工智能最主要的方式，仍是互联网科技公司提供的一些基础性服务，比如搜索、输入法、导航等产品中。在其背后，我们都发现了语音交互的影子。事实上，智能语音交互已经成为各大互联网巨头角逐的关键性领域，因为说话是人们生活最常用到的沟通方式，随着移动互联网的深入，智能语音交互日益成为用户的痛点。

从语音识别到实时翻译，人工智能较量升级

智能语音识别是包括谷歌、搜狗、讯飞等科技公司深耕的重要语音技术，从概念上来看，语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，其应用于智能终端则可以带来更便捷的服务，比如语音输入、语音拨号、语音导航、语音拍照等。麻省理工科技评论认为，“语音识别将成为人机交互的重要方式。”

在人们印象里，智能语音识别的代表性产物莫过于微软Cortana 、苹果Siri等语音秘书类产品，它们尽管使用便捷，但在应用场景和实用性上却有不少的限制。因此，语音识别作为一项重要且基础性的人机交互技术，如何更好的满足更多的应用场景，同时具备很好的实用性，也成为语音巨头们竞相突破的关口。

在刚刚结束的乌镇世界互联网大会上，搜狗公司CEO王小川就展示了在智能语音交互领域的最新成果——语音实时翻译。通过该技术，搜狗 CEO 王小川的中文讲话内容被实时识别为文字并翻译为英文在屏幕上显示，将王小川关于人工智能专业领域的报告进行机器同传。

例如，当王小川说到「搜索的未来就是人工智能时代的皇冠」时，屏幕上实时显示出了「In the future, search will be the Crown of the AI Era」，机器还能随着语句的逐渐完整，根据语义自动修改调整之前识别的内容。这也是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示，可谓是“技惊四座”。

王小川透露，这次推出的语音实时翻译，融合了业界领先的端到端神经机器翻译技术以及基于实例的翻译技术，基于大数据和深度学习，涵盖了搜狗自主研发的语音识别、机器翻译两项重要技术，翻译的结果比传统机器翻译更加流畅，效果更好。

无独有偶，在搜狗实时翻译发布仅过了两天，国内另一家语音巨头科大讯飞也在其发布会上展示了包括语音听写、实时互译、车载语音交互系统等语音交互成果。

在笔者看来，搜狗和讯飞在语音实时翻译技术的成果，反映了国内语音巨头在人工智能领域的较量正在升级，且都在用户场景和实用性上做更大的突破，可以认为是代表了国内该领域的最高水平。两家公司在技术上孰高孰低，目前尚无定论。

从目前看来，搜狗对于语音技术的应用，更加to C（用户），讯飞语音则to B（企业）多一些。搜狗的优势在于不仅拥有大量的数据资源、庞大的用户量，也拥有完善的搜索、输入法、地图导航等产品布局，因此搜狗语音技术更能直面用户的实用性需求；讯飞则拥有更广泛的开发者、厂商合作关系，其语音解决方案将主要通过厂商合作或销售方式应用于车载系统、教育、家居、机器人等领域。

基于深度神经网络实时翻译如何实现

在搜狗、讯飞相继展示语音实时翻译成果后，外界纷纷惊呼这种技术甚至将会颠覆专业同声传译从业者的饭碗，同时对于其背后的技术原理尤为感兴趣。目前在互联网上，关于讯飞实时互译技术背后的原理解读仍然较少，搜狗则在近期一场媒体沟通会上，主动揭开了搜狗实时翻译技术的神秘面纱。

搜狗语音交互中心技术负责人陈伟介绍，传统机器翻译所采用的主流方式叫“统计翻译”，从语料库大量的翻译实例中自动学习翻译知识，然后利用这些翻译知识自动翻译其他句子。这就需要把整个建模流程分成对齐模型、分层模型等多个模型，每个模型完成特定的很小的功能，最后串起来完成复杂的机器翻译系统。在这个过程中，每个模型的错误也会不断叠加。

搜狗语音实时翻译，在实现路径上不同于传统机器翻译，它使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示，利用注意力模型聚焦源端，使用循环神经网络生成翻译结果，准确率可以提升30%-40%。从系统框架来看，主要包括“发音”、“语音断句”、“语音识别”、“文本断句”、“机器翻译”、“输出判断”等若干部分。

从实用效果来看，在近期人工评测中，搜狗机器翻译在演讲、旅游、闲聊、日常口语等领域，采用五分制人工评分能达到 4.4 分，逐步走向实用化。陈伟透露，目前搜狗语音识别准确率已超过97%，识别速度达到了400字每分钟，语音输入日频次高达 1.9 亿次。

搜狗将该实时翻译技术命名为SNMT（Sogou Neural Machine Translation），这不免让人将其与谷歌的GNMT(Google Neural Machine Translation)联系一起。今年9月，谷歌宣布，网络和移动版的谷歌翻译将使用新的神经机器翻译系统，并以GNMT命名，它能让翻译系统不再像以前一样逐字逐句的翻译，而是根据整篇文章的大意来对句子进行分析。在新技术使用后，翻译错误可减少 60%及以上。

陈伟介绍，两者的基本构架有类似的，但还是有着相当大的差异。谷歌神经网络机器翻译使用了一个深度的长短时记忆神经网络，该网络含有8层的编码器和解码器，而搜狗目前最多只有 5 层。

在我看来，这就意味着谷歌需要投入更多的资源和人力来攻克更为复杂的架构（当然潜力也更为巨大），而搜狗在反应速度上将更具有优势，目前它的延迟只有 2 秒，而在准确性上，搜狗由于已经通过搜狗语音积累了大量中国人的口语语音数据，也可以一定程度上弥补由层数所造成的劣势。

结语

从全球人工智能的发展和趋势看，围绕智能语音交互诞生的成果无论从数量和实用性上看，仍然是其他人工智能领域所不能比拟的。随着语音实时翻译技术的成熟，它将可能应用于更多的生活和工作领域，但它也只是人工智能真正改变世界的一个节点而已。未来畅想的无人驾驶、远程医疗、机器人管家也许终将有一天会变成现实，他们也都离不开语音交互这个重要关口。

随意打赏

互联网下一个风口搜狗语音实时翻译下一个风口在哪里智能语音交互下一个风口语音智能实时交互