AIGC与音乐娱乐业的碰撞与火花，腾讯音乐携手腾讯云赋能行业

砍柴网 • 7月前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

9月8日，2023腾讯全球数字生态大会互联网 AIGC应用专场举行，基于AIGC在各行各业的落地实践，腾讯云正式发布了腾讯云智能AIGC方案全景图，依托图像生产、视频生成、文本生成、语音生成的四大生成能力，为千行百业提供AI绘画、人像变化、虚拟偶像制作、AI作曲等10多个标准化应用产品。

现场，腾讯音乐天琴实验室高级总监吴斌博士带来《AIGC在娱乐行业中的应用与发展》主题分享，他认为：AIGC的新契机在于大语言模型的发展以及Diffusion视觉生成模型的突破，腾讯音乐目前已经在这两项技术上有成熟、丰富的应用实践，并在生产效率、效益提升方面起到了积极推动的作用。此外，腾讯音乐自研的MUSELight大模型加速技术，驱动其大语言模型、视觉AIGC的加速能力均处于行业领先地位，全方位地提升了用户的视听体验，并能够为行业企业提供更全面、更精准、更有效的支持。

腾讯音乐天琴实验室高级总监吴斌

大语言模型应用落地，腾讯音乐促进用户之间的社交与关心

吴斌介绍，在大语言模型的赋能下，音乐可以促进用户之间的社交与关心。例如全民K歌不仅可以分析用户唱歌节奏、音准、情感等唱功能力，还可生成专业的评价，在用户作品下面以一个官方的AI助手方式进行评论。此外，全民K歌还可实现真诚地“夸赞”用户，例如“唱到XXX这一句时音色非常优美”“整体节奏感非常好”，同时也会非常客观地提出一些改进的意见，帮助用户更好练习唱歌。

AI助手点评的能力为整个大盘留存率带来显著的提升，分析其原因，吴斌认为是：AIGC能够带动用户跟用户之间社交的更进一步。延续这个思路，后续推出了“夸夸礼物”能力，支持用户为彼此的作品进行夸赞礼物赠送，显著地提升了收入。

AIGC与音乐娱乐业的碰撞与火花，腾讯音乐携手腾讯云赋能行业

自研MUSE AI视觉模型，助力音乐制作多元化展示

腾讯音乐通过对音乐音频、歌词及娱乐场景的理解，自主研发了MUSE AI视觉生成的算法以及MUSE UI视觉生成工具，极大降低了应用门槛，形成一个非常高效的工作流。设计师可以非常低门槛地找到自己想要的模型配置对应的效果，并可以一键进行模型的加速，生成API文档，给到工程团队进行大规模的部署。此外，由于MUSE UI是web服务，所以能够非常完整地整合行业里面大量优秀的模型，包括五千多底座模型，超过一万的LoRA。

MUSE UI解决了很多实际应用中的痛点。例如，设计师或者非技术人员非常难去写一个完整的、效果好的prompt。但是通过应用大语言模型进行prompt自动扩写之后，这时候可以给到非常多元化效果的启发。更进一步的，MUSE UI能根据prompt和参考图进行底座模型、LoRA的检索搭配，真正低门槛的给到多样化设计的思路和理念，让设计师继续往前探索。

吴斌介绍，MUSE AI已经在诸多领域进行了落地应用。

首先在音乐曲库里，很多音乐人在发行歌曲的时候难以承受专辑封面的高昂设计费用，虽然可以发行，但是在APP没有封面，难以被分发。MUSE AI可以很自然地为这些海量歌曲生成封面，并针对不符合尺寸的封面也可以进行无缝的扩展。此外，MUSE AI也会给UGC歌单自动生成一个合适的封面，同时也给音乐人在发行阶段提供了专辑封面制作的AI工具。

在音乐分享方面，借助 MUSE AI，QQ音乐、全民K歌等都实现了更精准、丰富的年终盘点，例如2022年底给每个QQ音乐用户生成了专属的年度歌曲画报，全民K歌也可以根据用户的嗓音进行分析生成画像。另外 MUSE AI在QQ音乐上面落地了一个行业领先的歌词海报的能力，基于音乐本身以及歌词的特点，自动生成高品质的可供分享的音乐视觉作品。

在音乐视频化方面，可以支持基于歌词和音乐生成的静态图片之后，再组合运镜，以及MUSE AI自研的图片动态化技术进行呈现，还可以针对传统MV进行风格化创作。在直播领域， MUSE AI赋能腾讯音乐在行业独创原创“神笔马良”的能力，让用户跟主播互动过程中，通过文字非常轻易地创作一个全新的、个性化的礼物赠送给主播，带来开盲盒的体验，并催生了一些非常值得讨论的直播话题。在教育领域， MUSE AI也参与了腾讯AI编程第一课的合作，让学龄儿童随手画几笔，就可以生成非常精美的图片。

自研MUSELight大模型加速技术，为行业应用降本增效

大模型的部署成本非常高昂，于是腾讯音乐自研了一套行业领先的MUSELight的大模型加速技术，通过算子级别优化，定制化算子及OP合并；访存计算量优化，KV-Cache 减少计算量；特殊核心算法层改进，显著降低显存并提高计算速度；并进行高性能硬件编程优化。

MUSELight为ChatGLM加速的lyraChatGLM获得了ChatGLM的认可，在该平台置顶推荐。同时MUSELight也在HuggingFace进行了多项大模型加速版本发布。此外，MUSELight大模型加速技术在腾讯内部产品上有所应用，例如为微信键盘加速后达到了上线耗时要求，并且降低了大量成本。接下来MUSELight也会跟腾讯云进行合作，对行业进行赋能。

最后，吴斌对AIGC的未来发展进行了设想与展望，他认为，大语言模型是一个非常强大、非常通用的能力，它潜在可以把所有人类知识进行理解和掌控，包括万物规律、人为定义的规则框架、人情世故等；Diffusion则是一项能够生成真假难分视觉内容的能力。Diffusion在大语言模型技术的驱动下，将在未来形成生成一个非常真实的虚拟世界能力。

吴斌表示，腾讯音乐天琴实验室正在做相关技术探索，例如虚拟人，可以根据不同的人设生成不同的精美形象图片，以及语言的陪伴互动。但这还不够，他希望未来虚拟世界可以从二维升到三维，从文本和视觉拓展到听觉，这是非常值得突破的下一个里程碑。现场吴斌也展示了天琴实验室最新的研究进展，在没有3D及参考视频的情况下，基于MUSE AI技术从零生成的一段虚拟人视频，视频中虚拟人缓缓露出惊艳的笑容，发丝随风吹动，远景还有行人走动及树叶摆动，并且带有背景声音，效果非常逼真，引发现场观众的惊叹与掌声。吴斌表示，腾讯音乐将持续深入AIGC前沿突破，创造音乐娱乐无限可能。