阿里通义开源首个CoT音频模型

i黑马  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

阿里通义语音团队最新开源的泛音频生成模型ThinkSound,主要用于视频配音,主打让每一帧画面都有专属匹配音效。据介绍,它首次将今年大热的CoT思维链推理引入了音频领域,解决了传统视频配乐技术往往只能生成单调的背景音,而难以捕捉画面中的动态细节和空间关系的难题。目前ThinkSound一共有三种型号(1.3B、724M、533M)可选,开发者可在GitHub、HuggingFace、魔搭社区下载体验。

文章评价
阿里通义开源首个CoT音频模型 匿名用户
发布
发布

    随意打赏

    提交建议
    微信扫一扫,分享给好友吧。