标贝科技高质量数据集打造精准维语语音识别服务

砍柴网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

听说新疆又上热搜了。

当然，这次还是因为传说中神秘的“喀纳斯水怪”。

虽然最后景区工作人员回应了水中黑影是哲罗鲑，否认了“水怪”的说法。但是并不妨碍人们对于神秘、美丽的新疆喀纳斯的向往。

近年来，随着“一带一路”发展战略的推进，拥有极其丰富资源的新疆作为“丝绸之路经济带”核心地区，已经成为我国西部地区经济增长重要支点，与其他民族之间的交融与日俱增，越来越多的人开始了解新疆。

新疆作为我国少数民族自治区，近50%的人口是维吾尔族，以维吾尔语为其主要使用语言，其中有很大一部分人不懂得汉语。

随着AI的飞速发展，应用场景不断扩展，智能语音设备无处不在，对于方言语音识别的需求也在日渐增加。为了让维吾尔族民众也能够享受人工智能、大数据、云计算等新技术为工作生活所带来的便利，标贝科技基于深度学习平台以及维吾尔语大量词汇，推出维吾尔语语音识别服务，助力维汉之间商业文化的交流，推动当地经济社会全面发展。

标贝科技高质量数据集打造精准维语语音识别服务

标贝维语语音识别能力

语音识别是解决让机器听得懂的问题，但是受复杂的外部因素影响，如环境噪声、多人对话、方言口音等，都会对识别结果造成一定干扰，一旦识别错误，就可能影响沟通双方对信息的理解。

标贝科技基于自研的深度神经网络训练声学模型，并采用大量维语语料数据进行模型和系统的迭代调优， 最终输出可以商业化的维语语音识别服务能力，整体识别速度和准确率可以满足多种语音交互场景的个性化需求。

例如，在智能客服领域，针对人工坐席与客户的通话录音进行智能话务质检，帮助客服提升服务质量；在政务应用方面，可以为新疆地区公安、司法等机构提供智能会议语音转写方案，为法院提供智能庭审实时语音转写系统，让信息沟通变得顺畅，有效提升政法机构业务效率；在线教育场景中，精准识别维语学习者的口语发音、表达能力并进行分析，快速提高口语能力。

标贝维语语音数据库

众所周知，基于机器学习的各种技术，往往都离不开算法和数据的积累。而想要提高语音识别的准确率，就需要大量的优质语音数据作为模型训练支撑。

维吾尔语是新疆维吾尔自治区的官方语言之一，目前我国境内使用人口约有1,500万。由于其黏着性语言的特征，利用丰富的词缀可以产生超大词汇，让维吾尔语语音在采集、标注上的难度高于国内其他语言，导致维语的语音识别训练语料始终稀缺，给语音识别带来很大困难。

面对以上难题，标贝科技在上线维语语音识别服务前，就已经推出800小时、1000多人参与录音的成人维语朗读及自由交谈数据库，已经完成标注，数据质量达到商业化的要求。

成人维吾尔语朗读数据库

数据库特点： 朗读类语音

录音环境： 安静室内

数据时长： 600 h

录音人数： 605人

录音语料： 通用

文件格式 ：WAV

语音参数： 16kHz/16bits

录音设备： 手机

适用领域： 可应用于智能客服、智能家居等语音识别场景

成人维语自由交谈数据库

数据库特点： 自由交谈类语音

录音环境： 安静室内

数据时长： 200 h

录音人数： 450人

录音语料： 通用

文件格式： WAV

语音参数： 16kHz/16bits

录音设备： 手机

适用领域： 可应用于智能会议系统、输入法、社交等语音识别场景

欢迎对以上数据集感兴趣的行业伙伴联系我们~

伴随此次维语语音识别能力的上线，当前标贝科技可以支持中文、英文、粤语、维语四种语言的语音识别，广泛应用于工作、生活、学习多种场景。未来，标贝科技将在技术创新和数据服务的基础上，持续为AI产业打造更准确、更高效的语音识别服务。

标贝科技高质量数据集 打造精准维语语音识别服务

标贝科技高质量数据集打造精准维语语音识别服务