阿里通义开源音频生成模型，能模仿音效师为视频配音 | 速途网

速途网 • 2月前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

速途网7月1日消息（报道：李楠）今日，阿里通义实验室开源了旗下首个音频生成模型ThinkSound，该模型首次将CoT（Chain-of-Thought，思维链）应用到音频生成领域，让AI可以像专业音效师一样逐步思考，捕捉视觉细节，生成与画面同步的高保真音频。目前，ThinkSound的代码和模型已在Github、HuggingFace、魔搭社区开源，开发者可免费下载和体验。

阿里开源音频生成模型ThinkSound

视频生成音频（V2A）技术是多媒体编辑和视频内容创作领域最重要的技术之一，但该技术的发展速度仍存在诸多技术挑战，例如业界现有的V2A技术仍缺乏对视觉对应声学细节的深入理解，导致生成的音频较为通用，甚至与关键视觉事件错位，难以满足专业创意场景中对时序和语义连贯性的严格要求。

为了解决现有视频转音频技术难以捕捉画面中动态细节和时序的难题，通义团队首次将思维链推理引入多模态大模型，可以模仿人类音效师的多阶段创作流程，实现对视觉事件与相应声音之间深度关联的精准建模，例如先分析视觉动态、再推断声学属性，最后按照时间顺序合成与环境相符的音效。不仅如此，该团队还构建了首个带思维链标注的音频数据集AudioCoT，该数据集融合了2531.8小时的多源异构数据，让模型在音频生成与编辑任务时做到“知其然、知其所以然”。

在开源的VGGSound测试集上，ThinkSound的核心指标相比MMAudio、V2A-Mappe、V-AURA等现有主流方法均实现了15%以上的提升。例如，在openl3空间中Fréchet 距离（FD）上，ThinkSound 相比 MMAudio的43.26 降至34.56（越低越好），接近真实音频分布的相似度提高了20%以上；在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上分别取得了1.52和1.32的成绩，均为同类模型最佳。