标贝科技多人会议场景语音数据采集 让办公效率直线拉满

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

随着智能语音技术应用场景的日益丰富,多人交互场景下的智能语音处理技术受到了越来越多的关注。其中,最为常见的就是会议场景。

当下,会议已经成为职场人日常工作中不可缺少的沟通交流方式。每周大会小会不断,接入会议的方式也越来越多样,例如现场参会、电脑入会、 手机 入会、电话入会等。而多人会议场景普遍存在语音口语化、环境噪声、房间混响和人声重叠等问题,都会影响会议音频数据采集效果,给实时语音识别、录音文件转写等需求带来挑战。

尤其近几年,疫情影响下,“云办公”需求呈现爆发式增长,越来越多的企业衍生出线上线下协同开会的混合式会议形式。随之而来的,是如何有效应对企业在不同会议场景下的开会需求,减少会议流程、提高沟通效率成为重点关注话题。

无论是线下会议还是线上会议,提供高品质音频都是其核心能力。而且会议形式越多,对于会议音频采集能力的要求就越高。 标贝 科技 深耕AI数据服务领域多年,积累了丰富的复杂场景多人会议数据制作项目经验,可支持多设备多通道的语音录制、覆盖 金融 保险、医疗、教育、政府机关、房地产等数十个行业领域会话内容。

标贝科技多人会议音频采集方案

标贝科技多人会议音频采集方案模拟真实会议场景,包括大型会议、中型会议和小型会议等多人会议类型,采用线性和环形16麦克风录制,可以有效增强噪声环境中参会人说话声音信号,提升音频采集质量。并将采集到的实时语音数据切分为标准的语音数据包,便于语音处理引擎对语音数据包进行识别处理。

▍方案特点

◆ 模拟会场真实环境,包括会议室墙面(水泥墙、玻璃墙等),会议室装饰(沙发、电视、电子屏幕、空调、植物等);

◆搭配会议系统,适应室内轻微噪音,包含参会人员非刻意键盘敲击、开关门、空调等声音,拾音清晰;

◆语种支持中文普通话,包含部分中英混场景;

◆录音设备为16麦线性、16麦环形、近讲耳麦手机数据时间对齐误差差小于10ms,说话人角度误差小于10°;

◆可以针对各个角色的语音实时识别,生成单独的录音文件;

◆自研的多设备多通道对齐技术,有效解决时钟不同步问题。

▍适用场景

会议作为多人对话领域中组织高效协同的核心场景,对语音转文字相关应用有着强需求。标贝科技多人会议音频采集方案适用于包括会议纪要、培训记录、实时演讲字幕、访谈录音转写、法庭庭审实时记录等多个场景,为语音识别需求提供高质量音频数据。

政企会议: 用于政府和企业的重要会议、公检法庭审等会议内容记录等场景,高效采集多人发言音频,便于速记并输出与会者发言内容或庭审内容。

演讲培训: 用于企业和个人的公开演讲或内部培训记录等场景,可完整的采集演讲音频内容,用于转写存量音频以及后期校对和整理语音记录。

交流访谈: 用于律师取证、咨询顾问、企业面试、课题等专业领域的访谈语音采集记录,输出访谈内容文稿并转写存量音频。

标贝科技多人会议数据集

众所周知,基于机器学习的各种技术,往往都离不开算法和数据的积累。想要提高会议场景下语音识别的准确率,就需要采集大量的优质会议场景数据作为模型训练支撑。

除了提供多人会议音频采集方案,标贝科技还针对不同的会议主题,精心制作了高质量的多人会议语音数据集,包括了实际会议场景下各种特性,例如停顿、重叠、说话人轮转、噪声等,提高会议场景语音识别准确性。

中文普通话会议音频数据集

语种:中文普通话

录音环境:室内会场真实环境

数据时长:100小时

录音语料:不同主题的自由对话

文件格式:WAV, TXT

语音参数:16 kHz/16 bits

适用领域:语音识别

欢迎对以上数据集感兴趣的行业伙伴联系我们~

随意打赏

提交建议
微信扫一扫,分享给好友吧。