腾讯音乐开源模型MuseV全网首测,LitGate称其表现令人惊艳

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

近日,知名AI 游戏 创作者社区LitGate对腾讯音乐娱乐旗下的天琴实验室,正式发布了开源虚拟人视频模型MuseV进行了评测。文章将MuseV模型评为今年AI视频领域“王炸级”的产品,并从一致性、时长、自定义动作、口型驱动、通用场景视频生成、生成速度等多维度展示了MuseV的亮点和优势。LitGate表示,测试中MuseV图生视频的稳定度表现超出了LitGate刚开始的预期。尤其是虚拟人微动长视频和口型生成部分有很大的优势,可以说是目前开源模型中最好用的一批。

以下是评测全文:

开源最强?腾讯音乐虚拟人视频模型MuseV首测

腾讯音乐娱乐的天琴实验室正式发布了开源模型MuseV,现阶段支持图生视频和口型生成,可以丝滑生成虚拟人视频,目前可以在Hugging Face和github上直接拉取代码模型跑起来。

腾讯音乐开源模型MuseV全网首测,LitGate称其表现令人惊艳

从GitHub描述来看,MuseV是2023年3月份基于Diffusion世界模拟器的构想(听着有点熟悉?)启动的,去年年中模型达到里程碑效果,现在因为Sora的发布决定开源。

说个题外话,去年他们还悄悄发布了AI虚拟人陪伴产品“未伴”做落地尝试,LitGate在抱着好奇心去试用后发现,和同类产品星野、筑梦岛等相比,它最大的优势其实是恋与深空的付费功能之一:免费上线了虚拟人实时语音对话和视频通话。

腾讯音乐开源模型MuseV全网首测,LitGate称其表现令人惊艳

(并非抓取特定关键词回复,是电话形式的真·实时对话,沉浸感拉满)

这次开源的MuseV瞄准了视频生成这一领域,官方公布的成品在一致性和口型生成方面都有相当不错的表现,生成的虚拟人视频非常丝滑:

腾讯音乐开源模型MuseV全网首测,LitGate称其表现令人惊艳

当然,具体表现还是要试试才知道,LitGate立刻全速对MuseV进行了测评,看看它是否真的像宣传上说的那样靠谱优秀。

Part 1 一致性

由于发布时间比较突然,LitGate先采用了Gen2和Pika这两款线上产品作为对比,后续会补上在工作流内与SVD、AnimateDiff等其他开源模型的测试。

根据官方的描述,MuseV在微动的虚拟人视频制作方面有突出的优势,那就用一张图看看它生成视频的效果:

(从左到右依次为MuseV、Gen-2、Pika)

可以看得出,在人物动作常规+背景不太复杂的情况下,MuseV的画面一致性完胜,表情也很自然;Pika画面一致性尚可,但画面细节丢失很多,清晰度感人,表情相对来说也没有那么自然;至于Gen-2……为什么脸都变了呢(费解)

接下来是乐器弹奏的动作试验:

(从左到右依次为MuseV、Gen-2、Pika)

MuseV画面保持不错,细微动作没有硬伤(手部动作明显优于其他两个),Gen2帮人整了容,Pika模糊问题严重,还一直执着于蜜汁运镜……

不过LitGate也发现,MuseV在画面主体有大动作的情况下表现稍差一些,但有些图片的背景也能实现比较自然的运动,而且和主体融合的效果也没有大问题,官方的示例视频中也有体现。

尝试了一下写实风格的图片和二次元平涂风格图片,视频效果也比较稳定:

(真人图片效果比二次元自然很多,主要真人头发效果确实还蛮让人吃惊的)

Part 2 无限视频时长

这次的测评中,还有一个很重要的亮点。

在过去的AI生成视频模型中,大家生成的视频长度都普遍不长,稍微长一些的能够延长到3-5秒左右。

但是根据官方说明,天琴实验室设计了一种叫Parallel Denoising的新算法,所生成的微动虚拟人视频时长理论上可以达到无限长!

测试环境下,好像确实可以生成蛮长的视频……

(示例视频大约10s,实际效果可以再延长)

这下想多大杯就多大杯,再也不用想方设法拼接短视频还要保持稳定性了。

Part 3 自定义动作生成

让图片跳舞这个事儿,通义千问之前已经小火了一把了,MuseV也支持放入传统工作流通过Openpose来控制动作生成,LitGate先来看一下官方效果:

在真实风格上MuseV的表现还是可圈可点的,动作比较流畅而且没有硬伤。由于MuseV是直接开源的,所以可以融入工作流内进行动作调试,比只能用现有模板的通义千问自由很多。

时间关系LitGate只选了个几个简单的动作进行测试,来看看生成结果:

目前来看,MuseV是基于pose生成图片首帧的,效果不错。但对于任意输入图片的情况,还有待posealign模块进一步开源。

Part 4 口型驱动

口型生成一向是虚拟人视频的重点之一,开源页面有提到口型生成技术MuseTalk将于不久后开源,暂时先看下官方成品的效果吧:

目前看起来效果还是相当自然准确的,对比HeyGen和Pika有一定优势,等开源了LitGate再来详细测评。(从MuseV开源的实诚风格来看,应该不会像隔壁某厂……)

Part 5 通用场景视频生成

需要注意的是,虽然MuseV的主要数据集来自于人像,但它在场景上的表现也不错(还记得刚刚视频中的背景也会动吗?)

(从左到右依次为MuseV、Gen-2、Pika)

MuseV的一致性最高,海浪的运动细节也没有硬伤,唯一的问题就是前景的花基本没怎么动;Pika出现了模糊问题,运动有点怪怪的并且依旧执着运镜;Gen2运动非常自然,但是出现了熟悉的画风问题,可以说看视频知Gen2,味儿很冲……

当然,如果用户有更加个性化的需求也可以通过拓展数据集来实现,反正都开源了,在工作流内进行拓展以及后续的数据集补充训练也不是问题。

Part 6 视频生成速度

顺便一提,在部署到本地环境测试后LitGate发现,MuseV的视频生成速度对比其他模型是有速度优势的,生成10s视频的速度,对比其他模型生成4s左右的视频速度要快。

具体看了一下,步数仅需要10步,而别的视频生成大部分都需要30步,50步,这一点有待天琴实验室放出论文后才能具体了解有没有针对性的优化。

另外LitGate留意到,天琴实验室的HuggingFace上有大量的大模型加速开源工作,后续也可以期待天琴实验室在MuseV上的加速。

评测结语

MuseV这次的开源确实给LitGate带来了不小的震撼,测试中图生视频的稳定度表现超出了LitGate刚开始的预期。

尤其是虚拟人微动长视频和口型生成部分有很大的优势,可以说是目前开源模型中最好用的一批。

AI图生视频的效果方面,常常会受到数据集等多种因素的影响,天琴实验室也表明开源只是一个开始,后续他们会朝着Sora的路线继续追赶,也希望更多团队能够参与到社区的开源共建中,给AI更多学习和进步的空间。

还记得在23年年底LitGate推出的AI产品总结中,视频板块的发展尚不尽如人意,但今年从Sora到SVD,再到如今MuseV对虚拟人细分领域长视频的突破,一切都似乎处在前所未有的飞快发展中。

2024年还未过三分之一已经全是王炸,期待今年的视频生成领域能给LitGate更多的惊喜。

AI视频什么的,今年真的是卷起来了啊!

随意打赏

提交建议
微信扫一扫,分享给好友吧。