重磅升级！标贝语音识别3.0版上线，实现更强语音识别能力

砍柴网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

语音识别技术，也被称为自动语音识别Automatic Speech Recogntion(ASR)，是通过计算机自动将人类的语音内容转换为相应文字的技术。通俗来讲，语音识别就是机器的“耳朵”，在人与机器进行语音交流的时候，让机器听得懂人类在说什么的前提。

近几年，随着深度学习技术在语音识别的应用，使得语音识别的性能得到了显著提升，交互场景从生活扩展到企业应用，需求也从识别的速度、精度转移到一些更加复杂的问题，对语音交互技术提出了更高的要求。

近期，标贝科技语音识别技术3.0版发布升级。经过一年多的算法攻坚，标贝科技研发团队在前端语音信号处理、声学模型、解码方式等各项技术实现全面升级，不仅在准确率及识别速度方面有了明显提升，而且还实现了快速纠错和热词实时更新等功能，进一步满足了行业用户的需求，提升语音识别体验。

重磅升级！标贝语音识别3.0版上线，实现更强语音识别能力

全新技术升级语音识别更高效

● 语音转写识别率极大提升

标贝ASR3.0在conformer端到端模型结构的基础上创新改进，在建模单元上引入了音节信息，将传统的GMM-HMM的对齐信息引入到前期训练中加速收敛， 实现了在复杂环境下拥有更好的鲁棒性和识别效果。

无论是不同设备录制、不同网络传输、还是带有一定噪声和干扰的语音，都可以实现准确转写。在通用场景测试中， 标贝ASR3.0准确率绝对提升3%-5%，达到行业领先水平，识别速度提升将近2倍。

● 更灵活高效的解码方式

标贝ASR3.0在解码方面借鉴了传统解码器对声学、发音词典、语言模型的融合方式，通过word networks融合发音词典的方式构图， 以此来达到语言模型快速优化、降低解码资源占用的目的。

不同于shallow fusion，标贝ASR3.0解码器在出词之前就加入语言模型的分数，进行解码路径的扩展，以此达到类似conformer结构中decoder部分的自回归效果。搜索时采用token passing的方式， 能够轻松满足产品上对识别结果的衍生需求，比如：时间戳、置信度等功能，为不同领域客户提供更细粒度的语音识别服务。

● 热词及自定义语言模型快速生效

标贝ASR3.0兼顾了热词快速生效和自定义语言模型无感知热更新的功能。 对于不同的特殊场景需求，用户只需要上传热词或者更新一下对应的语言模型即可，以尽量低的成本，提供更加流畅的识别体验，不影响正常的运行使用。

更多能力加持助力语音识别加速落地

据中商产业研究院统计，2020年中国智能语音市场规模达到113.96亿元，同比增长19.2%，预计2022年中国智能语音市场规模将增长至161.91亿元。其中，语音识别作为AI领域最为成熟落地的技术之一，也将继续加速在各垂直行业的渗透和布局。

作为国内领先的智能语音交互与AI数据服务商，标贝科技深耕语音交互领域多年，在技术创新和数据服务双轮驱动下，为AI产业打造更精准、更高效的语音识别服务。

针对专业领域应用场景，标贝科技推出“ASR自学习工具”。 用户在语音识别控制台上传专有领域或行业积累的文本数据，通过对这些训练语料做模型训练，来生成自己的自学习个性化模型和热词模型，有效提高专有领域场景下的语音识别准确率。

此外，为满足不同语种的客户群体需求，标贝科技语音识别今年在语种丰富度上持续发力。 在支持常见中文、英文识别基础上，开放了粤语、维语两种方言识别能力。经过长期的打磨训练和效果调优，目前标贝科技语音识别各语种已广泛应用于车载语音交互、会议记录转写、视频字幕、电话录音质检等业务场景。

作为新一代智能语音识别引擎，标贝科技ASR3.0已经在官网及开放平台焕新上线，以优质的性能对外提供AI开放式服务，赋能更多对语音识别有需求的合作伙伴。标贝科技AI语音产品负责人表示：“标贝研发团队未来仍将继续打磨技术，让语音技术在复杂多变的环境里，也能实现自然、流畅的语音交互体验，为企业提供更加高效、低成本、可定制的解决方案。”