推出“中文版Sora”？字节跳动回应

数据观 • 2月前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

继 ChatGPT 这一现象级的应用推出一年之后，当地时间2月15日，美国开放人工智能研究中心 OpenAI 正式发布了旗下首款视频生成模型 Sora，再次在全球掀起了人工智能关注浪潮。

据报道，OpenAI 推出的文生视频大模型 Sora 可通过快速文本提示创建“逼真”和“富有想象力”的 60 秒视频，还可以在单个生成视频中创建多个镜头，准确保留角色和视觉风格。OpenAI 表示，将为视觉艺术家、设计师和电影制作人提供 Sora 访问权限。

近日，有消息称，在 Sora 引爆文生视频赛道之前，国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

对此，字节跳动相关人士向媒体回应称，Boximator 是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

值得注意的是，字节跳动在AI及大模型技术领域的动作显得比较低调。迄今为止，字节跳动旗下的豆包、扣子和Cici等AI产品并没有进行大规模的宣传推广，字节跳动官方也没有公开其在AI领域的研发路线和战略布局。

　 Boximator模型让视频动作控制不再是梦

据介绍，Boximator 是一款创新的视频生成模型，它能够通过简单的文本描述精确控制视频中的人物和物体动作。

这意味着，只需输入比如“下雨天，大风把一位女生的雨伞吹走了”这样的文本，Boximator就能生成出相应场景的视频，展现女生追赶雨伞的动态过程。这种能力在以往的视频生成模型中是难以见到的，如Gen-2、Pink1.0等模型虽然在视频生成领域有所成就，但在精准动作控制方面仍有局限。

推出“中文版Sora”？字节跳动回应

论文地址：https://arxiv.org/abs/2402.01566

项目地址：https://boximator.github.io/

Boximator之所以能够实现如此精准的动作控制，归功于其独特的“软框”和“硬框”约束方法。硬框约束允许模型精确定义目标对象的边界框，确保对象在视频的后续帧中能够被精准定位。软框约束则定义了一个对象可能存在的区域，允许对象在这个区域内自由移动，增加了视频的自然性和流畅性。

控制模块的设计也是Boximator成功的关键。它结合了框编码器和自注意力层，通过深度学习技术精确地将文本描述转化为视频帧中的视觉元素。框编码器负责将框的坐标、ID、类型等信息编码成控制向量，自注意力层则负责学习框控制向量与视频帧视觉向量之间的关系，实现对视频内容的精准控制。

Boximator在多个实验中展示了其卓越的动作控制能力。通过与其他模型的对比，Boximator在视频质量、框与对象对齐精度方面均显示出优越性。更令人兴奋的是，Boximator还能作为插件，帮助现有的视频生成模型提升生成质量，拓宽了其应用范围。

此外，Boximator的成功也为未来的视频内容创作提供了新的思路。例如，在电影制作、游戏开发、虚拟现实等领域，Boximator都有着巨大的应用潜力。它能够大幅度降低视频制作的难度和成本，加速创意内容的产生和迭代，为创作者提供更多自由发挥的空间。

据了解，为获得视频训练数据，研究人员从WebVid-10M数据集中，过滤出110万段动态明显的视频片段，并自动为其注释了220万个对象的边界框。并在PixelDance和ModelScope这两个模型上训练了Boximator。

推出“中文版Sora”？字节跳动回应

实验数据显示，Boximator在保持原模型视频质量,具有非常强大的动作控制能力。同时可以作为一种插件，帮助现有视频扩散模型提升生成质量。

在MSR-VTT数据集上,无论是视频质量还是框与对象对齐精度方面,Boximator都优于原模型。在人类评估中,Boximator生成的视频也在质量和运动控制上明显超过原模型。

推出“中文版Sora”？字节跳动回应

字节跳动的研究人员表示，目前该模型处于研发阶段，预计2-3个月内发布测试网站。

字节跳动加速文生视频布局

值得注意的是，在Sora问世一周前，字节跳动宣布了一项人事变动，原抖音集团CEO张楠宣布，自己已经辞去集团CEO一职，未来把精力聚焦在剪映的发展上。字节跳动CEO梁汝波表示，感谢张楠过去带领中国信息平台业务做出的贡献和突破，期待她在新岗位上再接再厉。

剪映是字节跳动推出的核心视频剪辑产品。在AI的应用方面，剪映早就推出语音识别/生成、文本生成、虚拟人生成、AI配音等基础AI功能，还持续推出智能抠图、主题特效、视频转手绘、图文成片、智能裁剪等进阶功能。

张楠认为，AI图像生成技术正在给内容创作工具行业带来巨大的变化和可能性。

她在内部信中表示，“我知道这会是一条很长的路，而且会有很多激烈的竞争，也会碰到技术不确定性带来的很多挑战和试错。但梦想总还是应该有的，如果不极致地试一次，未来该多遗憾呢。”

张楠于2014年加入字节跳动。2016 年她带领团队，从0到1推出了抖音等产品。2018年，抖音成为中国最受欢迎的短视频产品之一。2020年，张楠出任抖音集团CEO。

接近剪映的人士透露，过去一年，张楠已经把绝大多数精力倾斜到剪映相关业务上，并亲自带队寻求在AI辅助创作上有所突破，即将推出一个AI生图和视频的产品。

公开信息显示，过去三年里剪映相关产品高速发展，截至2021年，剪映的月活用户已经突破1亿，是国内最大的移动视频编辑产品。

数据显示，剪映的月活用户在2021年就已经突破1亿，成为国内最大的移动视频编辑产品。同时，剪映海外版CapCut 2020年4月推出，但迄今其用户量已超过5亿人次，月活逾2亿，去年9月CapCut上的用户总支出突破1亿美元。

在对标Sora方面，不少业内观察人士对剪映寄予厚望。但字节跳动方面未回应Boximator模型是否后续会应用于剪映中。

"中国版的Sora"在哪？

英伟达高级科学家Jim Fan评论认为，2022年是影像之年，2023是声波之年，而2024是视频之年。

在Sora出现之前，谷歌的Imagen和Meta的“做个视频（Make-A-Video）”已经发布了相当长一段时间。就在上月底，谷歌还新发布了AI视频大模型Lumiere，该大模型同样可以通过联合空间和时间采样来实现生成，并且也显著增加了生成视频的持续时长和质量，甚至可以将静止图像转换为动态视频。

中国的AI大模型同样早已在文生视频赛道布局。去年3月，阿里达摩院就放出了“文本生成视频大模型”，并在开源模型平台上对外测试。百度文心一言则在正式发布的支持多模态文本生成视频能力基础上，在去年8月又上线了文本转视频原生插件。

不过，这些AI大模型生成的视频与Sora相比还有一定差距，一方面是体现在持续时长上，绝大多数视频时长还在4-10秒左右，其连贯性也有所不足。另一方面是镜头的组合，绝大多数视频都是单镜头；而Sora已实现了在一个视频里面，多角度镜头的组合。例如，在剪影动画中，视频从一只狼对着月亮嚎叫，直到它找到狼群，切换了不同景别的多个镜头。

随OpenAI、谷歌等纷纷推出各自的文生视频模型，东方证券在研报中提到，国内领先厂商已入局，其中，海康威视、大华股份、萤石网络等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程。

具体来看，海康威视现已处于多模态大模型的研发阶段，包括视觉、语音、文本等多模态信号的融合训练及处理。大华股份于23年10月发布“星汉大模型”，该模型融合点云、语音、图像等输入，构建了多模态融合的行业视觉大模型。值得一提的是，信雅达凭借“天才女儿”设立Pika的消息刺激曾在去年11月30日至12月7日录得6连板，公司表示，其已围绕图像识别、 AI 定制化建模等能力开展深入研究。

此外，据财联社不完全统计，包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。

随着文生图、图片对话技术的成熟，文生视频已成为多模态大模型下一步发展的重点。展望2024年，机构人士认为，大模型领域的竞争将进一步白热化，多模态大模型将成为生成式AI的重点发展方向，并有望推动本轮AI行情进一步扩散。

在国盛证券看来，AI文生视频是多模态应用的下一站。文生视频即根据给定的文字提示直接生成视频。随着文生视频技术的日趋成熟和广泛应用，或将为当下热门的短剧市场带来变数。该技术有望极大降低短剧制作的综合成本，为解决“重制作而轻创作”的共性问题提供解决方案，短剧制作的重心有望回归高质量剧本创作。

中信证券表示，多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步，持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变，继续关注算力、算法、数据、应用等环节的领先厂商。

东吴证券判断，多模态是AI商业宏图的起点，有望真正为企业降本增效，且企业可将节省下来的成本用于提高产品、服务质量或者技术创新，推动生产力进一步提升；同时，也可能出现新的、空间更大的用户生成内容平台。

责任编辑：张薇