实测全新 SkyReels ：AI 创作，终于连成了一体

雷锋网 • 6小时前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

现在的 AI 生成技术突飞猛进，但视频创作仍然是一件“高门槛”的事。

虽然生成式 AI 带来了前所未有的创作能力，但整个流程仍然琐碎。创作者需要先写脚本，再用文生视频工具生成画面，随后还要处理配音、剪辑、字幕、节奏……每一步都依赖不同的软件。专业团队可以用流程去衔接这些环节，但对普通创作者来说，这样的分工往往意味着更多的时间成本和学习负担。

AI 让创作更容易开始，却还没有让创作变得更连贯。真正的突破，也许不是更大的模型或更强的算力，而是让 AI 真正理解创意、参与创作。只有当这些分散的环节被重新连起来，创意才能自然流动。

未来的 AI 视频创作，或许不在于增加更多工具，而是在于形成一个统一的系统——让文字、图像和声音能在同一个空间协作，让构思、生成和调整在同一语境中完成。

而现在，这种改变，正在被昆仑万维逐步实现。

全新 SkyReels：创作不再有缝隙

昆仑万维最新推出的全新 SkyReels，就是在这种“重构创作方式”的思路下诞生的。它不是又一款单一的生成工具，而是一套让创作重新回到“统一与流动”的多模态系统。

在全新 SkyReels 里，图片、视频、音乐和人声讲解等元素都被放在同一个空间中理解和生成。创作者不用再在不同平台之间来回切换、反复导入导出，而是能在同一张画布上完成构思、生成和调整。创作的过程因此变得更顺畅，创意也能自然地延伸下去。

为了让更多人进入这种新的创作方式，全新 SkyReels 还设计了 3 种方式：

它既可以让熟悉 AI 的创作者可以直接生成图像、视频、音频或数字人，也能帮助希望获得更结构化帮助的用户，可以调用近三十个聚焦具体场景的 Agent，获得任务级协助。除此之外，初学者或效率导向的创作者，只需使用模板，输入文字或替换画面，即可快速完成创作。

而这一切，都发生在一张无限画布上。画布让不同模态的内容以拖拽的方式被组织与组合，让创意的边界随着操作而自然扩展。在全新 SkyReels 上，创作不再是对模型的调度，而是一次对思维的可视化延伸。

更深层的变化来自昆仑万维的 Agentic Copilot。在这个系统中，有一个 Super Agent 统筹着整体创作方向，近三十个 Expert Agent 分工协作，覆盖脚本、镜头、音效、剪辑等各个环节。创作者只需用自然语言表达需求，或上传素材、提供链接，AI 便能在多模态内容中完成理解、生成与优化。

在理念层面，全新 SkyReels 已经描绘出一种更自然、更连贯的创作方式，而在实际体验中，这种重构也并非概念上的想象，而是能够被直接感知到的变化。

AI 科技评论对画布与 Agent 系统等功能进行了一手实测，用更直观的方式还原了它们在实际创作过程中的表现。

实测全新 SkyReels ：AI 创作，终于连成了一体

实测画布：当创作不再被切割

当我们在画布中加入一张静态图片并让它动起来时，生成的效果出乎意料地生动。画面中的主体在落脚处出现了轻微的下压与形变，连脚下柔软垫子的塌陷感都被自然捕捉。

除此之外，原本贴在画面中的 2D 卡通贴纸，也被转译成具有体积感的 3D 元素，与整体光影氛围融为一体。这种细节层面的真实感，让生成的画面不再是“动起来的图”，而更像是一段真正拍摄出的片段。

实测全新 SkyReels ：AI 创作，终于连成了一体

同时，画布还支持将文字直接生成语音。只需在界面中输入台词或旁白，系统便能自动生成语气自然、情感流畅的声音，为画面增添完整的叙事节奏。无论是品牌讲解还是人物旁白，语音都能与画面氛围保持统一，让静态的创意真正“说话”。

实测全新 SkyReels ：AI 创作，终于连成了一体

我们还用画布生成了一段 ASMR 视频，主题是“星辰摩擦的声音”。模型在生成时准确捕捉了声波的颗粒感与空间分布，声音层次分明，节奏自然，带有切割肥皂般的细碎触感。视觉与音频在同一画布内被同步渲染，整体效果极其干净、细腻。

实测全新 SkyReels ：AI 创作，终于连成了一体

实测 Agent：当创意开始被承接

除了画布功能，当你打开首页时，还会发现这里有很多针对不同领域的专业 Agent。它们覆盖市场营销、电商内容、创意故事、虚拟形象等多个方向，用户可直接选择所需场景，即刻进入任务级创作，无需额外配置或学习。

实测全新 SkyReels ：AI 创作，终于连成了一体

我们先是用 Agent 创作了一个关于奥德修斯冒险的旁白故事视频。从人物造型、脚本撰写，到静态画面的生成、动态镜头的延展，再到解说人声和字幕的添加，整个流程几乎无需额外干预。

你只需要提供一个想法，并勾选希望呈现的元素，系统就能自动组合成一段结构完整、节奏自然的解说视频。

实测全新 SkyReels ：AI 创作，终于连成了一体

除此之外，我们还用 Agent 做了一个 15 秒的护手霜广告视频实验。只上传了一张产品图，并输入提示词：“我要推广一款护手霜，目标受众是都市白领，风格轻快。”

Agent 在几分钟钟内生成了完整的广告脚本与画面方案。镜头从手部特写缓缓推进到产品包装，背景是干净的办公场景与自然光线交织的氛围，镜头节奏轻盈，背景音乐也是干净明快。

整个视频没有过度渲染，却精准拿捏了品牌感与氛围感的平衡。从一张静态图片到完整成片，系统只用了几分钟的时间，而且可以让你明显地感受到，这已经不只是“生成内容”，而是在“理解创意”。

实测全新 SkyReels ：AI 创作，终于连成了一体

实测数字人：当生成内容开始有情绪

而到了数字人板块，官方展示的 Demo 效果同样令人印象深刻，人物的表情细节、眼神互动和说话节奏都非常接近真人。这样的完成度让我们对数字人板块产生了好奇，也想看看在真实使用场景下，它的表现是否依然自然流畅。

实测全新 SkyReels ：AI 创作，终于连成了一体

测试中，我们先是上传了一张老马与老黄的经典名场面图，并为其添加了相应的台词。最终在生成的视频中，两位角色的语气自然流畅，表情与身体细微动作精准匹配语音节奏。无论是说话时的轻微点头、视线的转移，还是停顿与呼吸的节奏，都呈现出接近真人表演的真实感。

实测全新 SkyReels ：AI 创作，终于连成了一体

在相同的对话内容下，我们还生成了一个由奥特曼单人出演的数字人视频。整体表现依旧流畅，语音与表情同步自然，人物在说话时的停顿与呼吸节奏也得到了较好还原。单人场景在情绪表现上更加集中，更容易看出模型对语音细节的捕捉能力。

实测全新 SkyReels ：AI 创作，终于连成了一体

值得一提的是，全新 SkyReels 是业内首个支持单镜头多人多轮对话的数字人模型。它能精确控制每个角色的发声时机与语气节奏，让多角色互动自然连贯，呈现出极具“真实对话感”的生成效果。

除此之外，我们还测试了一下全新 SkyReels 的其他功能。

例如在风格化测试中，我们尝试将一段蜘蛛侠视频转换成乐高风格。最终的生成结果的转译非常干净，动作逻辑完整，光影层次保留，人物在变为积木结构后仍具动感与体积感。

实测全新 SkyReels ：AI 创作，终于连成了一体

而全新 SkyReels 在视频延长测试中也有不俗的表现，我们先是上传了一段仅有一张主角正脸的视频，并给出提示词： “固定镜头，过肩视角，透过男人的背影看到女人含羞地一笑，然后开口说话。”

最终生成的视频令人惊艳，镜头反转后，原片中仅作背景的女性角色被完整生成，她的表情从微微低头到抬眼、轻笑，再到开口说话的细微变化都被自然捕捉，情绪层次清晰。

整个延展片段不仅延续了原有画面的光影与色调，还在情感上实现了顺畅衔接，让延展效果几乎无缝衔接。

实测全新 SkyReels ：AI 创作，终于连成了一体

整体测下来，全新 SkyReels 的实用性超出预期。它的功能覆盖了创意工作者最常用的生产环节 —— 无论是电商营销视频、自媒体内容，还是广告、设计、影视创意等场景，都能在几分钟内完成从构思到成片的全过程。

而在与 Agent 协作时，系统会主动确认每个创作细节，用户也能随时表达和修改自己的想法，整个过程像一次自然的创意对话。雷峰网 (公众号：雷峰网)

值得一提的是，SkyReels 已正式上线移动端。它在手机上完整保留了 Web 端的核心创作功能，让用户能够随时捕捉灵感、快速生成内容。即使没有专业设备，仅凭一部手机，也能轻松创作出专业水准的视频

技术之下，是统一的多模态思维

优秀的实测结果背后，是全新 SkyReels 所依托的统一多模态学习框架。

无论是基于图片、音频还是视频的生成任务，所有模型都共享同一个 Multi-modal In-Context Learning 预训练基础，再通过任务级精调进行差异化优化。这种设计让模型能够在不同模态之间建立稳定的语义联系，实现跨模态的一致性与泛化能力。

在图片驱动的视频生成中，全新 SkyReels 版本重点解决了“多主体一致性”与“背景连贯性”问题。模型通过跨帧配对策略和图像编辑模型的联合预处理，精准分离主体与背景，并在生成过程中进行语义级的重组，而非简单的图像拼接。再结合图像-视频混合训练与多分辨率联合优化机制，使模型在主体保持、动作延展和指令响应上同时提升。

这一改进使得其在参考图一致性与视觉质量指标上均超越主流闭源模型。

实测全新 SkyReels ：AI 创作，终于连成了一体

而在音频参考生成上，全新 SkyReels 基于 SkyReels-A3 框架进行了全新设计。通过引入区域路由机制，模型能够在单镜头中识别多角色并分别生成对应嘴型，实现自然的多轮对话。

此外，系统支持相机运动参数的监督学习，可在同一时间组合多种运镜，也能在不同时间实现平滑切换。关键帧插帧范式的加入，使其能在分钟级时长内保持高质量嘴部对齐与动作一致性。在官方评测中，模型在嘴部同步、视频质量（IQA 4.58）与角色一致性（ID 0.78）等指标上均达到闭源 SOTA 水平。

实测全新 SkyReels ：AI 创作，终于连成了一体

不光如此，V3 在视频参考任务上也实现了三类生成的统一——延长、编辑与风格化。

它通过设计不同任务的空间位置编码和专属嵌入，让模型能理解参考视频与生成视频的关系，从而在同一结构下完成多种任务。同时结合 token concat 与 channel concat 的优势，大幅减少计算量的同时保持高质量输出。

延长模型通过语义级预测，支持 Cut-In、Cut-Out、Reverse Shot 等多种切镜衔接方式，风格化模型则依托自建的自动化风格数据生成与筛选系统，构建了高质量风格配对数据集，实现稳定且可控的艺术化生成。

总的来说，从架构到训练，全新 SkyReels 的核心竞争力在于对“统一性”的彻底实现。雷峰网

它通过多模态联合训练，让模型能在不同输入之间形成共享语义空间，通过跨任务的结构设计，让延展、对话、编辑、风格化具备同样的理解逻辑，最终在一致性、画面质量和生成可控性上同时提升，成为目前少数能在图片、音频与视频任务中都达到闭源水准的多模态生成模型。

但这不仅仅是模型层面的升级，其实它更是创作逻辑的一次重构。全新 SkyReels 所实现的“统一”，不仅是把多模态能力融合在一起，更代表着 AI 理解世界方式的一次跨越——它不再把图像、声音、文字当成彼此孤立的信号，而是以语义为底层语言去思考、生成和表达。

当技术真的具备这种语义上的连贯性时，创作就不再是“调用模型”的过程，而更像是一种思维的自然流动。这正是全新 SkyReels 的意义所在——让 AI 的力量，重新回到创意本身。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。