独家|对话北京人形机器人创新中心CTO唐剑:世界模型有望带来具身智能的“DeepSeek时刻”
出品|虎嗅科技组
作者|宋思杭
编辑|苗正卿
头图|AI生成
距离唐剑离开学术界,已经过去七年。这七年里,他曾在自动驾驶的一线摸爬滚打,也亲眼见证了AI从“认知”走向“行动”的关键转折。和许多从自动驾驶跨入具身智能的学者与工程师一样,唐剑的轨迹也并不意外。
唐剑曾是美国雪城大学的终身教授,研究方向是“AI驱动的系统控制”。但在产业化的过程中,他逐渐意识到:无论是自动驾驶还是人形机器人,要想在真实复杂的环境中真正落地,传统的基于数学建模的方法可能无法实现,基于AI的经验驱动的控制更有希望成功,就像游泳运动员学游泳是一种基于经验的训练,而不是先去学流体动力学。
在学术界浸淫多年的唐剑,尽管离开学术界多年,也依然保持着严谨的风格。在采访前,他特地召集团队的技术成员,一起推敲了几个问题——确认表述是否足够准确。在对话中,他时常用“程度副词”精确地界定自己的观点。
唐剑看似学术派,却不晦涩。他谈世界模型,谈DeepSeek,谈具身智能的未来,逻辑清晰、语气平和,甚至带着一点克制的兴奋。
“我并没有说具身智能已经实现了智能涌现,”唐剑多次强调,“我只是类比DeepSeek的低成本复现与奖励机制带来的自我学习闭环,并在具身智能机器人领域达到SOTA水平。”他告诉虎嗅,他们的世界模型也同样引入了奖励机制和基于强化学习的微调,让机器人逐步具备自我优化与认知能力——但同时,他也坦诚,“我们还在路上,还有架构和算法需要继续迭代升级。”
与此同时,他也认同王兴兴说的具身智能还没有达到Scaling law,在他看来,除了数据远远不够,也因为模型架构没有收敛。他认为目前的底层架构存在问题。唐剑说,“未来我们可能还会迭代底层架构。”
如今,唐剑所在的北京人形机器人创新中心,公司一层是一个宽阔的机器人展厅,展厅布局更像一个具身智能的“群英荟”。走到一半时,尚未见到“天工”机器人的身影——它似乎被刻意“留到后面”作为重头戏。
继续往前,是一面展示机器人发展历程的长墙;对面则是整齐排列的玻璃展柜,里面陈列着当下海内外最具代表性的四款人形机器人,从左到右分别是特斯拉、Figure、宇树和智元。
而唐剑带领的团队,则在思考另一个问题——在那些光鲜的“形体”背后,怎样构建出一个真正理解世界的“心智系统”。
以下为虎嗅与北京人形机器人创新中心CTO唐剑的对话实录,有精简:
从AI控制到具身智能的起点
虎嗅: 从2018年回国至今,你已经在产业界工作了七年多。过去你先后在滴滴、美的等企业任职,经历了从学术界到产业界的转变。你长期研究的“AI驱动的系统控制”,在这些不同领域中有哪些共通之处?
唐剑: 这其实是我当初回国的一个主要初衷——希望能把AI驱动的系统控制真正用在产业里。这个方向也可以被称作“数据驱动”,但我更愿意叫它“经验驱动”的控制方式。传统的系统控制,需要先对复杂系统做出精确的数学建模;但在很多实际情况下,系统太复杂,很难建立一个足够准确的数学模型。经验驱动的思路不同,它通过历史数据和经验来学习控制规律,从而在缺乏精确模型的情况下,也能实现高效的控制。
后来,我在美国拿到终身教授之后,就开始醉心于“经验控制”的方式。
举个最简单的例子,比如游泳运动员潘展乐。他能游得快,不是因为他精通流体力学,而是通过反复训练积累经验,知道怎样动作更高效、怎样会“呛水”。同样的道理,AI控制系统通过大量数据积累“经验”,从而学会在复杂环境下的最佳决策,而不需要先写出精确的数学公式。
虎嗅: 这种“经验驱动”的理念,在你后续进入自动驾驶、机器人控制时是否也沿用了?
唐剑: 是的。比如自动驾驶中的“端到端控制”,就是典型的经验驱动思路。它将感知、规划、控制三个模块合并,由模型直接从数据中学习整个决策链条的优化。特斯拉从FSD 12.0版本开始,就采用这种端到端控制架构。这种方式相比传统基于规则与数学建模的方案,虽然确定性略低,但在复杂场景下的泛化能力更强,也更接近人类的学习模式。
虎嗅: 你此前在自动驾驶领域积累了丰富经验,为什么后来会把研究重心转向具身智能?
唐剑: 自动驾驶是经验驱动控制的一个非常典型的应用场景,而具身智能则是一个更高维度、更复杂的延伸。相比之下,机器人控制的自由度要高得多,一个机器人往往需要同时控制几十个关节,还要应对更加复杂和动态的环境。自动驾驶有一定规则可循,比如驾驶需要遵循交通规则,;而机器人工作在更开放更复杂的场景和环境,很多任务没有规则可循,任务类型繁杂,对理解能力、泛化能力的要求极高,可以说是智能系统的“天花板级”挑战。
虎嗅: 具身智能的复杂度比自动驾驶更高,那么它的“泛化能力”提升会是怎样一个过程?
唐剑: 这个问题很难回答。大家都在期待具身智能出现类似ChatGPT的“突破时刻”,但目前还没到来。具身智能的数据主要是轨迹数据,和语言模型的训练语料完全不同,数据量级、采集难度和成本都要高得多。这决定了它的进化会更慢、更依赖长期积累。
世界模型有望带来具身智能的“DeepSeek时刻”
虎嗅: 你说现在具身智能没有出现ChatGPT时刻,但却将世界模型类比为具身智能的“DeepSeek时刻”是为什么?
唐剑: 现在无论是具身智能还是世界模型,都还没有出现类似ChatGPT那样的“时刻”。我们提到“DeepSeek时刻”,更多是一种类比。主要是有三点相似的地方:
第一,它在极为有限的资源下(包括算力和数据)取得了超越SOTA性能。我们团队的思路也是这样,用有限资源(比如“百卡级”算力)训练出2B、7B、14B规模的世界模型,其性能在多项主要指标上超过SOTA,比如英伟达的开源模型Cosmos Predict 2。
第二,DeepSeek虽然在在训练范式上有突破。比如引入奖励机制,形成自我优化的训练闭环。我们现在的世界模型同样采用“双模驱动”结构——世界模型与VLM(多模态大模型)相互帮助、相互促进。在训练中,VLM会为世界模型提供“奖励反馈”,让它生成的内容更符合物理规律和因果一致性。
第三,我们坚持开源。DeepSeek在开源条件下实现了可比的性能,证明了低资源条件下的潜力。我们也希望通过开源,让更多研究者参与改进,从而推动整个领域的演进。
虎嗅: DeepSeek比较惊艳的一点在于它的奖励机制,你们的世界模型也提出了SOPHIA自我优化框架,这两者有相似之处吗?
唐剑: 核心就是一个自我优化闭环,本质属于奖励机制:由VLM来判定世界模型的生成是否合理,然后反思—调整—再生成。比如更改提示词(prompt)或中间策略,形成“评估—修正—再评估”的循环,直到结果在物理一致性与任务可行性上达到预期为止。
简单来说,当我在训练世界模型时,会引入一个闭环机制,让模型生成的视频越来越逼真、越来越符合物理规律。这一过程里,VLM会对世界模型提供反馈和奖励,从而帮助它不断改进。与此同时,世界模型也会反过来帮助VLM提升能力。
另一方面,我们今年在NeuRIPS上发表了一篇论文,里面介绍了如何通过世界模型训练助力机器人大脑的多模态大模型加速进化,。我们整体的架构是一个Agent体系,VLM在其中是“大脑”的核心,负责两件事:空间理解与任务规划。也就是说,当机器人接收到任务时,大脑要知道该怎么做。
举个例子,假设任务是“加热一块面包”。机器人可以用微波炉,也可以用烤箱,这两种方案都可行。我们用蒙特卡洛树搜索(Monte Carlo Tree Search)的方式,让系统自动生成多种执行路径,世界模型会对每一种方案进行仿真和模拟,再结合奖励模型对这些方案打分,最后选出最优解。
这个过程中生成的全部数据,会用类似DeepSeek的GRPO算法来微调VLM,使得VLM在空间理解和任务规划上越来越强。
虎嗅: 所以你们的世界模型本身也使用了GRPO机制?
唐剑: 对。我们在训练VLM时也引入了GRPO机制。我们很快会开源新的VLM模型,代号叫Pelican(天鹕),目前已经发布,接下来会开放。它的训练过程就结合了世界模型与GRPO机制,实现了一个更紧密的认知与物理交互闭环。
虎嗅: 你觉得如果基于世界模型的这种“双模驱动”的逻辑,需要多少数据量才能达到智能涌现?或者说达到智能涌现的这个“临界点”在哪?
唐剑: 这个问题得分两方面看。首先,是问“怎样才能达到涌现”,还是“什么时候会达到涌现”。这两点现在都没有明确答案。到目前为止,没有人能准确给出具身智能的“Scaling Law”——也就是智能能力随数据、算力、算法增长的规律。它是否存在、呈现怎样的曲线,都是未知数。
虎嗅: 你认为世界模型未来会成为具身智能行业里的主要分歧点吗?比如像自动驾驶对激光雷达的讨论一样。
唐剑: 我觉得和激光雷达还不太一样。激光雷达or视觉对于很多厂商来说只是两个版本。这类分歧更多是技术路线选择的问题。但世界模型不一样——对于具身智能来说,它是绕不过去的。
因为世界模型的核心作用是帮助机器人理解世界。人形机器人要实现的不仅仅是“像人”,更要在认知上接近人,能理解、能预判、能在物理世界中行动。没有世界模型的支撑,这一步是做不到的。
举个例子,最简单的机器人操作是“抓取”。现在的机器人抓取主要还是针对刚性物体,比如盒子、瓶子这类,柔性物体几乎无法精准操作。而人类在抓取不同物体时,会根据之前的经验与知识,自然调整力道与角度——抓丝绸、拿瓶子、掰煎饼里的薄脆,每种动作都不同。
要让机器人理解这种差异,它必须先有一个世界模型——也就是一个能理解、能预测、能模拟世界的系统。否则,它在开放世界中的行动是不可能真正可靠的。世界模型有时也被称为“世界模拟器”,在机器人训练中尤其是大脑训练阶段,是不可或缺的一环。
世界模型的进化:从视频生成到物理理解
虎嗅: 我可以理解为世界模型是具身智能的“必选项”吗?是否只有世界模型才能让机器人真正理解世界,其他模型不行?
唐剑: 这个问题问得很好。现在大家提到“世界模型”,往往会自然联想到视频生成类模型,但我认为这只是它的一种形式。世界模型的本质,是让AI理解世界的模型,不局限于某种算法。
每家企业都可以用不同方式来构建和使用世界模型。目前看世界模型主要有三种用途:
第一种,是让世界模型与机器人大脑(多模态大模型)形成闭环,互相促进。它帮助机器人大脑自主学习、自主探索——比如当机器人接到同一任务,但处于不同环境时,执行路径都不一样,世界模型能帮助它“在脑中”提前模拟出多种方案,最后选择最优路径。我们自己使用了类似蒙特卡洛树搜索的算法,让模型在虚拟世界中多次尝试,再决定最佳行动规划。
第二种,是让世界模型直接生成轨迹数据。如果模型足够成熟,它可以自己生成机器人训练所需的行为数据,这样不必完全依赖真实采集。
第三种,是将世界模型作为机器人操作模型(VLA)的一部分,即模型本身就具备物理理解与控制能力。这样机器人在执行任务时,能直接利用物理规律指导操作——比如它会知道“薄脆”该怎么抓,柔性物体该怎么拿。
虎嗅: 所以其实现在行业里对“世界模型”还没有统一的定义?
唐剑: 对,目前确实没有。很多人提到“世界模型”,脑子里想到的都是视频生成模型。其实那类更多面向内容生成,比如服务影视或娱乐行业。而我们所做的,是面向机器人操作的模型——主要基于机器人第一人称视角,内容也围绕操作任务展开。
虎嗅: 那视频生成类的世界模型,和具身智能领域所说的世界模型,最大的区别是什么?是数据吗?
唐剑: 主要是对物理规律和时空一致性的遵循。视频生成模型追求画面的美感或艺术效果,它可以在不符合物理规律的情况下生成炫酷画面。比如手碰到杯子,杯子没动、手却穿过去——在视频里如果有几帧,可能没人注意,但在机器人训练中这是不可接受的。
机器人必须准确预测“杯子会不会倒”“物体会不会移动”,否则下一步动作就完全错了。因此,具身智能的世界模型要求严格的物理一致性和因果逻辑。
同时,时空一致性也很重要。比如在一个视频生成模型中,镜头转动后物体可能“变形”或“漂移”,但在机器人世界模型中,这种不一致会导致控制逻辑失效。只有保证时间、空间、物理规律的一致性,机器人才能真正理解并操作现实世界。
虎嗅: 虽然视频生成模型对时空一致性和物理规律的要求没有具身智能世界模型那么高,但它们在技术路线上的本质是不是一样的?
唐剑: 目前来说,我们的具身世界模型的底座(base model)确实也是基于视频生成的DiT架构。我们当前版本最大的特点是引入了VLM(多模态大模型)形成“双模驱动”,并通过类似DeepSeek那种带有奖励机制的方式形成闭环。同时在训练中引入了类似“反思”的机制,让生成结果越来越符合物理规律。不过,从长远来看,我们的下一个版本很可能会采用一个全新的架构。
虎嗅: 是因为它所使用的数据都是视频数据吗?
唐剑: 这可能是一方面的原因,但更深层次的问题在于架构本身。它并不能真正捕捉到物理规律。现在AI界的一个热点问题,就是如何把物理约束,比如牛顿定律、能量守恒等物理规律,有效地注入到世界模型中。我们现在的做法是让VLM在训练中对生成结果进行判断与奖励,这相当于一种强化学习式的约束机制我们会尝试更多新的方法。。
虎嗅: 回到行业的角度,你认为现在为什么具身智能行业需要世界模型?是不是因为行业急需让机器人具备更强的泛化能力?还是说算法和数据的积累已经到了一定量级?哪个因素的权重更高?
唐剑: 权重更高的是第一个。我们常说人形机器人落地分为三个阶段:工业场景—商业场景—家庭生活场景。后两者对泛化能力的要求极高,因为环境复杂多变,这就必须依靠世界模型来指导机器人“怎么做”。我们内部也把体系分为“大小脑”:大脑负责思考和决策——接到任务后决定如何执行;小脑负责动作控制,也就是执行层。
虎嗅: 之前我们聊到,世界模型早期多应用于视频生成。在具身智能领域,这个应用算是刚刚开始吗?
唐剑: 对,相对较新。英伟达之前在推动,最近智元也在做。其实现在行业里普遍关注这一方向。世界模型的核心应用之一就是机器人训练——可以生成数据,也能模拟机器人在虚拟场景中完成任务。
虎嗅: 那是否存在某些世界模型更适合工业场景,另一些更适合生活或商业场景?
唐剑: 不会。差异主要在机器人本身,而不是世界模型。比如Figure03更偏向生活与商务场景,强调拟人与柔顺性;而工业机器人更粗壮,追求负载、稳定性与耐用性。但世界模型的底层架构不会因此分叉,只要数据充分,模型通用性是一样的。
虎嗅: 所以,世界模型的核心目标就是提高机器人的泛化能力?
唐剑: 正是如此。
文章标题:独家|对话北京人形机器人创新中心CTO唐剑:世界模型有望带来具身智能的“DeepSeek时刻”
文章链接:https://www.huxiu.com/article/4795971.html
阅读原文:独家|对话北京人形机器人创新中心CTO唐剑:世界模型有望带来具身智能的“DeepSeek时刻”_虎嗅网