TEN VAD 与 Turn Detection开源，让Voice Agent 对话更拟人

砍柴网 • 12小时前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

近日,声网和RTE开发者社区宣布,共同支持TEN VAD 和 TEN Turn Detection两款新模型开源。这两个模型是基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,能够让 AI Agent 的交互体验更加自然。作为开源项目,任何人都可以自由使用、Fork 或为其贡献代码。这两款模型也将作为开源对话式 AI 生态体系 TEN 的核心模块持续迭代优化。

TEN VAD:超低延迟、低功耗、高准确率的语音活动检测模型

TEN VAD 是一个基于深度学习的轻量级流式语音活动检测模型,具备低延迟、低功耗、高准确率等优势。它通常用于语音输入大语言模型(LLM)前的预处理步骤,准确识别是否音频中包含人声并过滤掉无效音频(例如背景噪音或静音段)。

虽然它的功能简单,但作用十分强大:

· 准确识别音频帧中是否有人声;

· 判断一句话的开始和结束位置;

· 过滤掉无关音频(背景噪音、静音等);

这不仅提升了 STT 的准确性,还能显著降低处理成本--避免将无意义的声音送入到 STT 流程中从而产生费用。同时,如果你会用到“轮次检测(Turn Detection)”,那么 VAD 是你的必选项,它是轮次检测准确性的可靠保障。

性能对比: 与目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。

TEN VAD 与 Turn Detection开源，让Voice Agent 对话更拟人

在延迟方面 TEN VAD 同样领先。它能快速检测语音与非语音之间的切换,而 Silero VAD 则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。

TEN VAD 与 Turn Detection开源，让Voice Agent 对话更拟人

开发者友好: TEN VAD 已在 Hugging Face 和 GitHub 上开源,并附带人工精标的数据集(TEN VAD Test Sample),开发者可以一键使用进行模型推理或模型评估。

实际应用效果: 一个真实用户案例显示,使用 TEN VAD 后, 音频传输数据量减少了 62%,显著降低了语音服务成本。

TEN Turn Detection:让 Voice Agent 学会“何时说、何时听”

TEN Turn Detection 重在解决人机对话中最难的部分之一——判断用户何时停止说话。在真实交流中,AI 需要区分出“中途停顿”与“说完了”的差别。插话太早会打断人类思路,太迟回应则会显得迟钝、不自然。

TEN Turn Detection 支持全双工语音交互,即允许用户和 AI 同时说话,就像两个人交流时那样自然。

工作原理: 它不仅识别语音内容,还通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕;最终让 AI 更智能地决定“该说”还是“该听”,从而让对话更加流畅自然。该模型支持中英文,可供所有 Voice Agent 开发者自由使用。

效果表现: 我们在多场景测试数据集上对比了 TEN Turn Detection 和其他同类开源模型,各模型的表现如下:

TEN VAD 与 Turn Detection开源，让Voice Agent 对话更拟人

为什么选择 TEN VAD 和 TEN Turn Detection?

当结合使用这两个模型时可以打造出更自然、反应更迅速、成本更低的 Voice Agent:

开源 + 高质量

· 基于声网十多年实时语音深度研究经验;

· 超低延迟、低功耗、高准确率;

· 完全开源,Apache 2.0 许可证,欢迎使用、修改和贡献。

更自然的对话

· 正确处理“打断”、“停顿”、“回应”等人类式交互;

· 极大提升用户体验。

成本更低

· VAD 准确识别语音帧,有效减少语音识别调用量;

· 实测结果显示:两者合用能大幅降低总系统成本。

即插即用

· 可作为 TEN Framework 的插件模块使用;

· 对于已经使用 TEN Framework 的开发者,支持无缝集成;

· 对于正在选型 AI Agent 框架的团队,TEN 是具备最佳 VAD 和轮次检测能力的选择之一。

使用 TEN VAD 和 TEN Turn Detection 的最佳实践

两款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:

Hugging Face 上快速运行(推荐)

1.登录 Hugging Face;

2.打开 TEN Agent Demo;

3.点击右上角设置 > Duplicate this Space;

4.即可用 Hugging Face 提供的 GPU 部署完整体验。

本地运行(自带 GPU)

1.登录 Hugging Face;

2.打开 Demo 页右上角设置 > Run Locally;

3.按照本地部署指南操作即可运行完整。

随意打赏

基于开源鸿蒙打造搭载鸿蒙操作系统的“鸿蒙电脑”正式发布

砍柴网 • 1分钟前

5月19日，在华为举办的nova 14系列及鸿蒙电脑新品发布会上，全新“鸿蒙电脑”HUAWEI MateBook Pro与HUAWEI MateBook Fold 非凡大师正式发布。据了解，此次发布的两款鸿蒙电脑均搭载基于开源鸿蒙打造的全新HarmonyOS 5，并已顺利通过开源鸿蒙兼容性测评，开机画面显示“Power
KWDB 数据库“开源校园行”活动走进华东师范大学

砍柴网 • 22小时前

5月15日，“源动力，向新生——KWDB 数据库开源校园行”活动在华东师范大学（以下简称“华师大”）顺利举办。本次活动由山东浪潮数据库技术有限公司、华师大数据科学与工程学院联合主办，KWDB 社区支持，围绕数据库行业趋势及前沿技术，开源社区实践及职业能力拓展等主题展开分享研讨，帮助高校学子掌握前沿数据库技能，推广开源技
“开鸿Bot”电脑系列，开启开源鸿蒙“开箱即开发”新纪元

砍柴网 • 4天前

近日，深圳开鸿数字产业发展有限公司(以下简称“深开鸿”)正式宣布将推出全国首款面向开源鸿蒙开发者的电脑系列——开鸿Bot系列，并率先开启BotBook与BotMini两款形态的预售。这一系列产品将极大简化开源鸿蒙(OpenHarmony)开发环境搭建流程，真正实现“开箱即用、开机即战”的开发体验，标志着开源鸿蒙开发进
阿里巴巴开源视频生成与编辑模型通义万相Wan2.1

砍柴网 • 5天前

5 月 14 日消息，据《科创板日报》报道，阿里巴巴正式开源通义万相 Wan2.1-VACE，这是一款支持视频生成与编辑的模型，单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。据悉，本次共开源 1.3B 和 14B 两个版本，其中 1.3B
开源生态，创新无限：铠大师基于 OpenHarmony 首发鸿蒙版虚拟机

砍柴网 • 5天前

随着我国数字经济发展进入深水区，自主可控的开源生态建设迎来关键突破。 5月8日，华为公司在深圳举办鸿蒙电脑技术与生态沟通会，搭载鸿蒙操作系统的鸿蒙电脑正式亮相，标志着国产操作系统在个人电脑（PC）领域实现重要突破。国内领先的应用生态融合 AI 服务商晟为数科宣布，其基于OpenHar
昆仑万维正式开源Matrix

砍柴网 • 7天前

5月13日，昆仑万维正式开源（17B+）Matrix-Game大模型，即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地，也是工业界首个开源的10B+空间智能大模型，它是一个面向游戏世界建模的
昆仑万维宣布开源 Matrix

砍柴网 • 7天前

5 月 13 日消息，昆仑万维刚刚宣布 Matrix-Game 大模型（17B+）正式开源，即 Matrix-Zero 世界模型中的可交互视频生成大模型。昆仑万维表示，Matrix-Game 是 Matrix 系列在交互式世界生成方向的正式落地，也是工业界首个开源的 10B+ 空间智能大模型，它是一个面向
北京人形机器人开源社区已上线

i黑马 • 10天前

5月8日，据“北京亦庄”公众号消息，2025年4月，北京人形机器人开源社区（opensource.x-humanoid-cloud.com）已正式上线，包含博客、论坛交流、技术文档展示、开源项目展示、活动发布、专家学者认证、开源课程发布等丰富功能，通过开放共享核心技术与研发资源，促进全球开发者协作创新、加速行业技术突破
阿里通义 Qwen3 上线，开源大军再添一名猛将

雷锋网 • 13天前

4月29日，通义App与通义网页版全面上线阿里新一代通义千问开源模型 Qwen3。用户可以第一时间在通义App和网页版中的专属智能体“千问大模型”，以及主对话页面，体验到最强开源模型的智能能力。Qwen3一经发布便登顶全球最强开源模型，包含8款不同尺寸，均为全新的“混合推理模型”，智能水平大幅提升的同时也更省算力。其中

评论