人形机器人，也迎来 ChatGPT 时刻？

砍柴网 • 3月前扫码分享

2024 年才一开年，一款名叫 Mobile ALOHA 的机器人就因为 " 会炒菜 " 在 X 上出了名，还被各种大 V 轮番转发。

人形机器人，也迎来 ChatGPT 时刻？ ▲ Mobile ALOHA 在做菜图源：斯坦福大学

可能很多人会有疑问，都 2024 年了，机器人会炒菜早已不是什么新闻，为什么这款机器人会如此备受关注？原因很简单， 因为 Mobile ALOHA 的 " 炒菜 " 技术，和之前的炒菜机器人完全不是一回事。

传统炒菜机器人大多是滚筒结构，需要人工进行备菜，机器人按照设定的程序将配菜按顺序倒入滚筒，然后滚筒翻滚，在翻滚的过程中，机器人的调料瓶可以自动挤出调料。

但 Mobile ALOHA 却可以使用人类的案板和刀具、使用人类的灶具和炒锅，它也没有专属的调料瓶，而是如人类一样，用 " 手 " 拿起盐罐和酱油。 总之，它如同真人一般，完成了一整套炒菜的流程。

只这一点，Mobile ALOHA 就已经完全颠覆了传统机器人的工作方式。

2021 年 8 月，马斯克首次公布了特斯拉的人形机器人计划。之所以选择人形机器人，是因为这是当前最适合人类生活环境的机器人形态，它不需要为了适配机器人的工作而改造环境，也不必为机器人单独制造额外的工具。

它完全可以像人一样，走人类所走的路、用人类的工具参与劳动。

但人形机器人一直存在一个很大的问题—— 学人走路很简单，学人做事却很难。

1 月中旬，马斯克曾在 X 上展示了特斯拉的人形机器人 Optimus Gen 2 叠衣服的视频，在视频中，Optimus Gen 2 的动作仍然笨拙，并且这套展示还不是机器人自主执行的操作。

人形机器人，也迎来 ChatGPT 时刻？ ▲马斯克 X 平台截图

作为对比，Mobile ALOHA 表现出来的能力，就更加具有冲击力了。

而 Mobile ALOHA 之所以能有如此亮眼的表现，关键在于斯坦福团队使用了行为克隆（BL）的方法，由人带着机器人针对某个动作重复操作 50 多次，之后机器人就能够自主完成相应的动作。

这种由人类直接参与的训练方式，与去年引爆 ChatGPT 的路径有许多相似之处。

2023 年初，OpenAI 推出的 ChatGPT 引爆全球，推动这一点的关键技术就是 " 人类强化反馈学习 "，它通过将人类反馈作为 " 奖励 " 和 " 惩罚 " 引入 AI 训练，打破了原来大模型训练的瓶颈。

而现在，随着行为克隆（BL）方法在机器人训练上的使用，曾经一直桎梏人形机器人训练的技术也迎来新的突破。似乎，人形机器人正在迎来自己的 "ChatGPT 时刻 "。

这一次，终于轮到了华人？

在世界科技发展的前沿，华人的身份总是在国内受到额外的关注。

比如大家会关注 OpenAI 的华人工程师，关注马斯克超过三分之一的华人团队，关注时代周刊 " 全球百大 AI 人物 " 榜单中的华人入围数量。

虽然华人在世界科技发展的前沿占据重要的地位，也做出过许多不可磨灭的贡献，但到目前为止，引领世界科技浪潮的华人角色仍然屈指可数。

但这一次不同，如果行为克隆（BL）成为打开人形机器人大门的钥匙，那华人也将站在世界科技变革的中心。

作为一款家政机器人，Mobile ALOHA 由斯坦福大学的华人团队研发，其核心成员包括 Zipeng Fu、Tony Z.Zhao 和他们的导师 Chelsea Finn。其中 Zipeng Fu 是项目共同负责人，他是斯坦福人工智能实验室计算机学博士生，也是谷歌 Deep Mind 学生研究员。Tony Z. Zhao 则是斯坦福大学的计算机科学博士生。

▲ Mobile ALOHA 主创团队

虽然我们前面在讨论人形机器人，并认为 Mobile ALOHA 能够为人形机器人的训练带来变革，但从外观上讲，Mobile ALOHA 和 " 人形 " 几乎毫不相关。

Mobile ALOHA 的构造极其简单，1 个移动底座（AgileX Tracer AGV）；两只手臂（ViperX 300），配有 2 个腕部摄像头和 1 个顶部摄像头，然后在底座上搭配有机载电源和计算设备。

它的实物长这样：

▲ Mobile ALOHA 样机

Mobile ALOHA 的操作模式分为两种，一种是真人遥控操作，另一种是全自动操作。

在遥控模式下，操控者可以将自己的腰部和底座连接，通过扭动腰部直接驱动轮子实现移动控制，同时，操作人员可以通过后端的机械臂控制前端的机械臂。而在自动模式下，这一切都由计算机在统一操控。

和特斯拉 Optimus Gen 2 的演示视频并非机器人独立操作的一样，X 平台上广泛流传的 Mobile ALOHA 的演示视频也并非由机器人独立完成，而更多是两种模式混合下的操作结果。

▲ X 平台截图

但即便如此，Mobile ALOHA 的操作，也给机器人训练带来巨大的突破。比如像炒个虾仁、擦拭酒瓶、冲洗盘子等简单的动作，只需要操作员手把手带着机器人重复 50 次，机器人就能够学会并自主操作。

这个过程，就类似小时候，妈妈手把手带着我们握笔和写字一样。 但模仿学习的过程对于人类来说，其实并不容易，对机器人来说就更是如此了。

2018 年，波士顿动力一段机器人翻跟头、跨越障碍的视频在网络上走红，成为国内对人形机器人最早的科普。大家当时普遍惊讶于波士顿动力的机器狗，对于特技动作的控制能力，但实际上，对于机器人来说，实现翻跟头、跳跃、鞠躬，要比实现做家务简单多了。

这种现象有一个专有名词—— " 莫拉维克悖论 "。

这个概念是人工智能和机器人学领域的先驱汉斯 · 莫拉维克提出的，它描述了在计算机和机器人系统中一个有趣且非直观的现象：对于人类来说简单的感知和运动任务，对计算机和机器人而言却异常困难；而相反，人类认为复杂的逻辑和抽象思维任务，对计算机来说却相对容易。

Mobile ALOHA 之所以能够如此轻松地完成一些简单动作，关键在于斯坦福团队在机器人模仿学习能力上的突破。

模仿学习有几个 " 难啃 " 的骨头。

比如复杂的感知能力和环境适应能力， 模仿学习要求机器人需要高度发达的感知能力，包括视觉、听觉、触觉等多种感官输入的综合处理，以理解和模仿人类行为。

比如精确的动作复制能力， 人类的动作细微且流畅，机器人如果要精确复制，不仅需要复杂的机械结构，还需要高度精确动作控制算法。

最后还有机器人的多样性和泛化能力， 人类可以将学过的技能在多种不同场景中复用，但对于机器人来说，每一个新的场景都是一次新的学习。

为了应对这些难题，机器学习领域开发了各种不同的模仿学习方法，其中主流的方法有三个，包括行为克隆（BL）、逆强化学习（IRL）和生成对抗模仿学习（GAIL）。对于 Mobile ALOHA，它的目标只是为了完成简单动作，泛化要求低，且希望在短期内看到效果。所以他们选择了行为克隆（BL）的方法。

简单来说，行为克隆是一种将观察映射到行动的方法。比如我们看到有人举着手向你迎面走来，你可能会下意识地击掌，比如在你打电话的时候，别人给你任何东西，你都会下意识地接住。

行为克隆就是利用这个原理，将一部分场景与机器人的行为进行对应。确定了模仿学习的路径后，Mobile ALOHA 其实还有一些问题需要解决。

首先是移动问题。在传统的行为克隆学习方法里，机器人可以学习各种原始技能，比如简单的 " 拾取 " 和 " 放置 "，但是在现实生活中，更多场景需要机器人具备调动全身运动的灵活性，比如煎完虾滑后，需要机器人移步到身后的餐桌，将虾滑倒入碗中，这就要求机器人会举起锅、移步、转身、反手倒入等。

Mobile ALOHA 通过将其安装在轮式底座上，扩展了原始 ALOHA 的功能，即低成本、灵巧的双手操纵木偶装置。

其次是如何在短时间内实现高效率数据搜集的问题。Mobile ALOHA 通过执行监督行为克隆，与现有静态 ALOHA 数据集的联合训练，可以提高移动操作任务的能力。

最后则是复合性误差的问题。前面提到行为克隆模仿学习将 " 状态 " 和 " 行为 " 深度绑定，所以一旦机器人的 " 行为 " 产生误差，就可能改变预期的状态，从而下一个行为产生偏差。

为了解决这一问题，斯坦福团队从神经科学获得灵感，将独立的动作组合成一个单元，简单地说，就是将一系列 " 状态 " 进行打包，以单元为单位执行所有 " 动作 "，这样就大大降低了误差，提升执行效率。

这一套方法叫做 ACT 算法（Action Chunking with Transformers，简称 ACT），它的核心思想是将复杂的决策过程分解成更小、更易管理的 " 行动块 "（action chunks），从而提高决策的效率和质量。

Mobile ALOHA 不仅让大众享受了一场机器人做饭的视觉 " 盛宴 "，更酷的是它让机器人的模仿学习能力又上了一个台阶，它在数据和算法层面的创新，为机器人迎来 "ChatGPT 时刻 " 带来更多可能性。

人形机器人，走到爆发前夜？

2018 年，从波士顿动力依靠机器狗火出圈之后，机器人赛道就开始被更多行业所关注。2022 年 10 月，特斯拉首款人形机器人在 AI Day 上初次亮相，将这个赛道彻底推向高潮。

从此之后，从太平洋的东岸到西岸，各类机器人创业公司层出不穷。

一直以来，机器人赛道都在快速发展，且从来不缺竞争者。

比如特斯拉的人形机器人，2022 年登上 AI Day 的舞台时，它还如一个老人步履蹒跚，需要人扶着；但到了 2023 年，Optimus Gen 2 就已经能够和人类挥手致意，甚至 90 度弯腰屈伸。

1 月底，Magic Lab 人形机器人 " 翻跟斗 " 的视频在网上爆火，这是一家中国的人形机器人公司，因为跳跃、后空翻等场景的优秀表现，被网友称为波士顿动力的挑战者。

▲ Magic Lab 人形机器人

这样的机器人，甚至还会制作咖啡 " 拉花 "。

再往前看，2023 年 8 月，宇树科技发布 H1 人形机器人，它的行走速度超过 1.5m/s，潜在的运动性能可以达到 5m/s 以上。

2023 年 12 月底，国内人形机器人公司优必选在港交所上市，被称为 " 人形机器人第一股 "。按照规划，优必选的人形机器人主要聚焦在工业制造、商用服务和家庭陪伴等三大场景。

而回顾整个 2023 年，机器人的技术进步和产业发展也被市场普遍认为是除了 AI 和商业航天之外，全球范围内最重要的技术发展。

所以尽管如今人形机器人还处在起步阶段，但其中蕴藏的巨大潜力却早已经掩盖不住。

根据 IFR 和中国电子学会数据，参照其他电子产品渗透率超过 20% 后将爆发式增长，2023 — 2030 年，按年均复合增长率 30% 测算，预计到 2030 年，我国人形机器人市场规模有望达约 8700 亿元。

▲图源：中商产业研究院

在这样的背景下，人形机器人及配件相关的投融资活动也相当活跃。

根据中商产业研究院最新统计数据显示，" 截至 2023 年 11 月底，中国智能机器人行业投资事件数量达 139 件，投资金额达 844.62 亿元，投资领域包括人形机器人、智能仿生机器人、智能机械手、智能协作机器人等。"

到了 2024 年，虽然时间过去还不到一个月，人形机器人赛道却已经产生了 2 笔大额融资。

先是国内人形机器人研发公司 " 星动纪元 " 宣布获得由联想创投领投，金鼎资本、清控天诚跟投，老股东世纪金源超额追投的超亿元天使轮融资。不久之后，来自挪威的人形机器人初创企业 1X Technologies（简称：1X）也宣布完成了 1 亿美元的 B 轮融资。1X 在 2023 年就曾获得由 OpenAI 创业基金领投的 2350 万美元融资，成为 Open AI 投资的第一家硬件公司。

资本市场对人形机器人青睐有加，因为人形机器人赛道落地不仅会改变生产和生活方式，其众多零部件组建的上下游生态，也会形成一个巨大的配件生态供应链市场。

根据阿里云《中国机器人产业图谱及云上发展研究报告》显示，机器人产业链主要分为上游核心零部件研发与生产、中游本体制造和系统集成，以及下游各行各业的具体应用等三方面，每一个环节都充斥着配件市场的新机遇。

▲图源：行行查研究中心

2023 年 10 月，国家工业和信息化部印发《人形机器人创新发展指导意见》（简称《意见》）。《意见》的第一句话就开宗明义：" 人形机器人集成人工智能、高端制造、新材料等先进技术，有望成为继计算机、智能手机、新能源汽车后的颠覆性产品，将深刻变革人类生产生活方式，重塑全球产业发展格局。"

机器人将带动整个工业制造转型升级、可能成为新的支柱型产业已经成为一个可以预见的未来。

1972 年，早稻田大学加藤实验室发明了世界上第一台人形机器人 WABOT-1，它每走一步需要 45 秒，但它的第一步跨出人类人形机器人历史性的一刻。

52 年后，载着大模型和多样化的技术路线，人形机器人或许也将迎来它的 "ChatGPT 时刻 "。

来源：产业象限