所谓的语音识别准确率，请告诉我们实验环境

百度百家 • 7年前扫码分享

抢占语音识别的制高点已经成为诸多科技公司近来的重头戏。

近日，搜狗、百度、科大讯飞分别召开发布会，公布了自己在语音识别技术方面的成绩，三家都对外界称，自己的语音识别系统“准确率达到97%”。

光看这样的标题让黑君产生一种错觉，人工智能已经发展到这么高级的水平了吗？那距离机器人时代还会遥远吗？电影《her》里的场景是要很快成为现实了吗？

以前我们常说互联网时代，你并不知道“和你聊天的是人还是狗”，现在可能变成“你爱上的都不知道是不是人”。

理智告诉黑君，“语音识别准确率达到97%”这个数据值得质疑。

任何一项实验都是有特定的条件，在告诉大家一个数据的同时，是否也应该让其知晓是在什么条件下产生的最后结果呢。

让我们了解一下，97%都出自什么样的科学评判标准之下。

搜狗的语音实时翻译技术，“准确率达到了97%，支持最快 400 字每秒的听写”。

大家不要忽略了，搜狗的这项技术主要是指“语音识别和机器翻译（ 将它“听”到的内容转化为文字 ）；

百度则宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。这是在百度语音开放平台每日在线语音识别请求 1.4 亿次的情况下，97%准确率则是在“ 安静条件下 ”实现；

科大讯飞则是引用了罗永浩9月份的公开说法。罗永浩称，科大讯飞的语音输入识别成功率达到了 97%，即使是离线识别准确率也达到了 95%。 要知道，罗永浩是基于锤子手机之上的数据。

而语音转文字单项测试中，讯飞听见（面向政企、司法、媒体、速记等用户）实现语音实时转化成文字的正确率达到98%。

近两年，受益于大数据和深度学习技术的不断发展，语音识别技术突飞猛进，速度和准确性都有了进步。

细细看来，其实每家公司的97%都是公布的都是在单个领域实验的结果。

所以说，

不说具体实验条件、只说最后数字的行为都挺耍流氓的。

在圈内的人都知道，所谓的识别准确率都是在不同的维度之下。

就拿演讲一项来说，标准普通话的演讲、夹带方言的演讲、中英文穿插的演讲、英文演讲，不同的演讲语言、方式，在不同的场所，都会出现不同结果。

说到语音识别，并不只是语音翻译成文字那么简单，包括语音中的识错、纠错。

另一方面，如果参与语音测试的人，本身就是正确率高的人，那么其准确率数据必然好看。

本着讲事实的精神，黑君试验了某款语音识别的功能，仅就黑君用普通话说出“什么时候去五台山玩”这句话时，说了10次错了3次；用略带方言的普通话输入“我要去五台山时”，3次全错；而试验“从xx到xx中心”这句话时，准确率为100%。

虽然这次简单的实验本身无法证实什么，但从实验结果来看，输入的语言越标准，识别准确率越高。

当然，这些数据其实是很鼓舞人心的，只不过，黑君觉得，在科学研究上，还是更加严谨些好。

follow黑科技： 无黑不科技

清音π出品（玩乐主义｜报告人民币｜育子匠）

首发媒体

| 转发媒体