击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一

极客公园  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

当行业还在激烈讨论「具身智能」的落地路径时,人形机器人的「大脑」进化竞赛,已经悄然抵达一个新的里程碑。

近日,优必选对外公布,其自主研发的人形机器人 Walker 的「最强大脑」——百亿参数基座的多模态大模型 Thinker,在全球三大权威 AI 基准测试中,一举斩获四项世界第一。

这些由微软谷歌等巨头发起和提出的榜单,吸引了包括英伟达、北京智源研究院、上海 AI Lab 在内的全球顶尖团队同场竞技。此次优必选的胜出,不仅证明了其在机器人复杂环境感知、语义理解与长程任务规划等核心维度的技术领先,更标志着其人形机器人 Walker S 具身智能的关键进化,真正让机器人「看懂世界、自主完成任务」成为可能。

01

多模态感知+强推理规划

赋能工业场景规模化应用

在智能化浪潮席卷全球的当下,人形机器人的规划能力已成为关键竞争维度之一。传统机器人系统依赖预设指令执行任务,难以应对高度动态、多变的现实场景。而本次三大基准测试的核心,正是针对人形机器人在复杂环境中的多模态感知和推理规划能力进行系统化验证。

MS COCO detection challenge 由微软发起,是计算机视觉领域的权威评测基准之一, 在全球学术界与工业界享有极高认可度,常年被众多顶尖论文与技术报告用作感知算法性能的衡量标准。

RoboVQA 和 Egoplan-bench2 则分别由谷歌 DeepMind 和香港大学提出, 致力于构建机器人第一视角推理与任务规划的公开标准基准测试,重点关注多模态、长周期任务规划能力。参与排名的模型包括北京智源、英伟达 ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl 等。

击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一

优必选 Thinker 在 MS COCO detection challenge - Segmentation Mask 中排名第一

击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一

优必选 Thinker 在 MS COCO detection challenge - Bounding Box 排名中并列第一

击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一

优必选 Thinker 在 RoboVQA 与 Egoplan-bench2 中排名第一

这一成绩的背后,是优必选自主研发的 Thinker 架构与训练框架所提供的技术支撑, 通过多项关键技术创新性整合,系统化提升了人形机器人的感知与推理规划能力,为工业场景的规模化应用奠定基础。

Prompt:「Move the material box to the conveyor belt.」

Thinker:「First locate the conveyor belt, then place the material box.」

Walker S2 在工业场景中自主完成上料

第一,自研视觉编码器基座,构建精准环境感知。 优必选以 ViT 作为视觉编码器原型,结合 Co-DETR 检测头,依托 Object 365 等开源数据在通用视觉任务上进行预训练,并通过多阶段模态对齐机制 实现了视觉-语言模态的高效融合。 最终,在优必选机器人数据集上进行微调,显著提升机器人在工业场景中对物体、障碍和操作上下文的识别能力,为复杂环境下稳定可靠的多模态环境感知奠定了坚实基础。

第二,超大规模参数架构,提供强大语义理解基础。 优必选自研了 具有百亿参数的多模态大模型 Thinker 基座, 实现视觉-语言-时间的跨域统一表征,使机器人能够在多场景中准确捕捉环境细节、理解任务指令并做出推理,为自动化操作提供可靠的认知基础。

第三,时序增强算法与强化学习方法,增强长程任务规划连贯可靠。 通过大模型蒸馏技术, 将百亿参数模型效果浓缩至 7B 参数模型中, 在保持高性能的同时增强多步骤任务分解与连续决策能力。该优化使模型可以在 端侧部署, 用机器人自身搭载的算力就可实时自主拆解复杂流程, 避免规划中断或逻辑混乱, 在流程严格、环环相扣的工业场景中展现出关键价值,将有力保障生产连贯性和操作安全性。

02

通用基础能力打造+工业场景精调

共创工业人形机器人应用生态

工业场景的精调策略正成为推动多模态大模型迈向实际应用的关键力量,为人形机器人在生产线上的稳定、高效部署奠定了技术基础,加速其从技术验证走向规模化实战应用的进程。

优必选创新性地采用 「通用基础能力打造+工业场景精调」的微调策略, 基于超 200 万条视频数据构成的大规模训练集进行预训练,随后引入优必选在工厂实训中积累的亿级工业数据集进行微调,并对工业场景任务规划数据加以清洗与整合,构建高效多模态大模型学习闭环。通过这一流程,模型能够快速学习工业场景的视觉特征、任务规则与操作偏好,最终 显著提升人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性, 实现在多种复杂场景中的泛化性与稳定性。

Prompt:「Move the material box onto the pile of boxes next to it.」

Thinker:「The middle slot is the best one for the material box.」

Walker S2 在工业场景中自主规划任务

在 Thinker 大模型技术体系的全方位赋能下,优必选新一代工业人形机器人 Walker S2 实现「最强大脑」再进化, 不仅具备高精准环境感知能力,更能够在动态场景中高效完成任务分解、实时调整与稳定规划。借助 Thinker,Walker S2 可 精准识别设备、物料与障碍物,深度理解场景语义及操作前后逻辑关联,显著提升长周期任务的执行稳定性。 在复杂流水线环境中,机器人展现出持续连贯的规划能力,大幅降低对人工干预的依赖。

实际应用数据显示,相比仅基于通用数据微调的模型,采用工业数据集进行二次微调后, Walker S2 在拆码垛规划等典型任务的中的规划精度提升超过 20%, 有力验证了该技术方案的产业化价值,相关技术报告将在 arxiv 上发布。

Prompt:「Move the material box onto the roller rack.」

Thinker:「First locate the roller rack and then place material box.」

Walker S2 在工业场景中自主规划任务

当前,人形机器人正在进入大规模应用的关键阶段,其发展亟需与开发者共同构建开放、协同的应用生态。为此, 优必选将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型, 为全行业提供源自实际应用一线的高质量合规数据资源。开发者可基于优必选多模态大模型 Thinker,面向各类新场景开展精调与二次开发,助力提升开发效率。我们期待与全球开发者携手,共创工业人形机器人的应用生态,为具身智能行业的加速发展注入持续动能。

随意打赏

提交建议
微信扫一扫,分享给好友吧。