所谓的语音识别准确率,请告诉我们实验环境

所谓的语音识别准确率,请告诉我们实验环境

抢占语音识别的制高点已经成为诸多科技公司近来的重头戏。

近日,搜狗百度、科大讯飞分别召开发布会,公布了自己在语音识别技术方面的成绩,三家都对外界称,自己的语音识别系统“准确率达到97%”。

光看这样的标题让黑君产生一种错觉,人工智能已经发展到这么高级的水平了吗?那距离机器人时代还会遥远吗?电影《her》里的场景是要很快成为现实了吗?

以前我们常说互联网时代,你并不知道“和你聊天的是人还是狗”,现在可能变成“你爱上的都不知道是不是人”。

理智告诉黑君,“语音识别准确率达到97%”这个数据值得质疑。

任何一项实验都是有特定的条件,在告诉大家一个数据的同时,是否也应该让其知晓是在什么条件下产生的最后结果呢。

让我们了解一下,97%都出自什么样的科学评判标准之下。

搜狗的语音实时翻译技术,“准确率达到了97%,支持最快 400 字每秒的听写”。

大家不要忽略了,搜狗的这项技术主要是指“语音识别和机器翻译( 将它“听”到的内容转化为文字 );

百度则宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。这是在百度语音开放平台每日在线语音识别请求 1.4 亿次的情况下,97%准确率则是在“ 安静条件下 ”实现;

科大讯飞则是引用了罗永浩9月份的公开说法。罗永浩称,科大讯飞的语音输入识别成功率达到了 97%,即使是离线识别准确率也达到了 95%。 要知道,罗永浩是基于锤子手机之上的数据。

而语音转文字单项测试中,讯飞听见(面向政企、司法、媒体、速记等用户)实现语音实时转化成文字的正确率达到98%。

近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度和准确性都有了进步。

细细看来,其实每家公司的97%都是公布的都是在单个领域实验的结果。

所以说,

不说具体实验条件、只说最后数字的行为都挺耍流氓的。

在圈内的人都知道,所谓的识别准确率都是在不同的维度之下。

就拿演讲一项来说,标准普通话的演讲、夹带方言的演讲、中英文穿插的演讲、英文演讲,不同的演讲语言、方式,在不同的场所,都会出现不同结果。

说到语音识别,并不只是语音翻译成文字那么简单,包括语音中的识错、纠错。

另一方面,如果参与语音测试的人,本身就是正确率高的人,那么其准确率数据必然好看。

本着讲事实的精神,黑君试验了某款语音识别的功能,仅就黑君用普通话说出“什么时候去五台山玩”这句话时,说了10次错了3次;用略带方言的普通话输入“我要去五台山时”,3次全错;而试验“从xx到xx中心”这句话时,准确率为100%。

虽然这次简单的实验本身无法证实什么,但从实验结果来看,输入的语言越标准,识别准确率越高。

当然,这些数据其实是很鼓舞人心的,只不过,黑君觉得,在科学研究上,还是更加严谨些好。

follow黑科技: 无黑不科技

清音π出品(玩乐主义|报告人民币|育子匠)

本文被转载1次

首发媒体 百度百家 | 转发媒体

随意打赏

语音识别准确率世界告诉我们识别准确率准确识别
提交建议
微信扫一扫,分享给好友吧。