飞轮“倒转”,灵巧手厂商困在夹缝里

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

“关于灵巧手,你可以认为所有 demo 都是假的。一切都是过拟合的结果,自主完成任务的能力基本不存在。从业者和非从业者对技术进展的认知差距过大,需要一些可视化的东西来弥合这种鸿沟。”一位业内人士告诉雷峰网 AI科技评论。

这一说法后来得到了多方认同。放眼刚刚过去的 WAIC 和 WRC 两个大会,预编程仍是主流。

今年以来,具身智能的焦点突然从本体延伸至灵巧手——上游零部件、下游本体纷纷下场,灵巧手初创公司遭受两面夹击。

投资者也多方下注,主要押注三个特征:最 AI、最像人手、最早量产。

但智能不足仍是最大痛点。

此外,何为最像人手?商用客户到底在哪里?围绕这些问题仍争议不断。环境一片嘈杂,所有争议又最终指向另一个问题——降本。

作为上游部件,理想的状态本应该是“规模量产—数据涌现—技术迭代—成本下降”,但飞轮跑不开就是死循环。本征资本的邢大地指出,灵巧手行业的残酷之处在于,场景需求和竞争优势不明确,市场很容易红海化,“这样的项目几乎是必死的”。

2024 年以来,灵巧手厂商期望以最后一环的“降本”作为飞轮启动键,应对上下游夹击,焦虑表现之一在于,技术远未成熟,但价格战已过早升级为一场鏖战。

   飞轮“倒转”,灵巧手厂商困在夹缝里

(目前已发布灵巧手产品的公司,AI 科技评论整理)

上下游夹击,押注三大方向

具身智能的聚光灯依旧灼目,灵巧手已经被推到了台前。

这已经是共识。随着机器人操作能力成为焦点,灵巧手日益被提上日程。这个赛道从阒无人迹到人满为患只用了短短半年多时间,还有大批玩家在持续涌入中。雷峰网 (公众号:雷峰网) AI科技评论梳理出的二十多家灵巧手厂商,大致可被划分为三类。

第一类为上游零部件厂商向下拓展,比如靠电机起家的兆威、靠触觉起家的帕西尼,以及由工业夹爪向灵巧手过渡的大寰……作为其优势能力维度的自然延伸,这类厂商的灵巧手产品往往天然带有鲜明辨识度。

同时,在过去数年间积攒的供应链管理能力也有助于成本和性能的可控。

以大寰机器人为例,其电动末端执行器的出货量迄今已超过 20 万套,通用的生产设备能摊薄成本,在空心杯电机、丝杆等零部件物料采购时也可以有更多的优势,诸如以同等的价格采购更加优质的零部件。此外,这类企业往往也形成了较成熟的零部件测试体系,有助于确保产品可靠性。

第二类为下游整机厂商向上布局,这一点成为今年灵巧手赛道的新趋势。

一段时间以来,整机厂造手被“诟病”分散精力、不务正业,但是事实上,它们早期大多选择外采,最终自研更多只是多方比对下的无奈之举。

这样的故事有很多:星海图曾经尝试从外面采购灵巧手,但发现兼容性和稳定性存在问题,随整机卖出后客户反馈难以落地;优必选认为别家的方案并不适用于自己专注的工业场景;智元也曾依赖外采的灵巧手进行数据采集,多方尝试均未满足要求,于是干脆转向自研……本质在于,灵巧手方案同应用场景关联紧密。

相比之下,挤在前两者的夹缝之中,纯粹的灵巧手厂商在数量上反而少得多。

现实情况是,零部件厂商与整机厂往往并不把灵巧手作为主要的现金流产品,前者更多将灵巧手作为一个集成单元以展示核心部件能力,部分厂商甚至为了避嫌(避免被质疑同灵巧手客户竞争)只敢低调卖手;

后者的灵巧手基本集成在自己的本体上,甚少单买。魔法原子的一名销售经理告诉AI科技评论,灵巧手作为末端执行器能够深入场景,满足用户需求,先把业务跑起来,这也和公司今年官宣的“千景共创计划”相呼应,“之前我们也考虑过外采,要么价格太高,要么性能不足,达不到客户的要求”。

总之整机厂造手还是为了卖机器人。真正一心一意卖手的只有灵巧手初创公司。

新玩家持续涌入的过程中,投资者和猎头等外围人士也看到了新的机会,很多人已经察觉到整机领域的收敛与饱和趋势,转而开辟新的战场。今年多起相关融资金额达到数亿元,从种子轮到B+轮的阶段均有涉及。

有投资者向AI科技评论分析,灵巧手的投资,目前其实就三个点:一是最像人手,比如较高的自由度;二是量产能力,比如工程化能力等;三是智能化程度。投资者可能每条技术路线都会押注,赌最终跑通的那家是自己投出来的。

但在技术远未收敛、行业一片嘈杂的背景下,这三个问题又盘根错节、相互影响。

最像人手:一味卷自由度是伪命题

最像人手的灵巧手应该长什么样?

一只健全的人类手掌容纳有 27 块骨骼、19 个关节、35 块肌肉、123 条韧带和48根神经;可为了复刻其动作,灵巧手需要数百个大大小小的零部件。如何将这一数量庞杂的零部件排布成手掌大小并保证灵巧操作,在业内引发了巨大争议。

即便是手指数量这样一个最简单的问题,也争论不断。

从最像人手的角度思考,一只手理所当然应该长着5根手指,但从功能性角度,90%以上的人手动作能仅靠四指完成。这方面典型的案例是帕西尼。作为曾经坚定的四指主义者,帕西尼认为小拇指对于灵巧操作的用处有限,因而出于成本考量省去了小指。

帕西尼 CTO 张恒第解释,四指映射的核心是保持动力学上的相似性。具体有两种方案,一种是直接忽略掉小指,但鉴于小指在维持平衡方面的重要性,这并非最佳方案;另一种则是把无名指和小指通过合力和合力矩的等效性映射过去,相当于把后两根手指合二为一,保证在对物体施力时,四指实现的力的分布同五指接近,力的分布越接近,最终行为就会越接近。

但刚刚过去的 WRC 上,帕西尼的灵巧手也变成了五指。张恒第对 AI 科技评论感慨“胳膊拧不过大腿”,尽管四指方案更具成本优势,业内认知难以扭转,五指也有助于数据采集之后的开源。

在手指数量的讨论渐趋收敛之后,自由度是灵巧手厂商们的另一个角逐点。

目前,市面上的国产灵巧手自由度从个位到数十个应有尽有,其中最高一款是灵心巧手的 Linker Hand L30 科研版,配备了 42 个自由度,远高于真实的人手。

理论上,灵巧手的自由度越高,就越灵活,但随之而来,控制灵巧手的难度也越大。在大寰机器人看来,自由度并非越多越好,而应视情况而定。用一个高度灵活但难以控制的灵巧手一站式解决抓取问题其实实现起来特别复杂。自由度数要同机器人大、小脑发展进度相匹配。

这一观点得到普遍赞同。在多名业内人士看来,单纯卷自由度没有意义。换句话说,现在不是比谁家的自由度高,而是谁能更有效驱动每个自由度。

此外,从机械结构上看,一个主动自由度对应一个电机,要将十几个电机塞进一只手掌,难点重重:要么将手做大做重,但这反过来又会增加惯性降低灵敏度,成年人一只手的平均重量约为 400 克,但目前市面上的灵巧手往往数倍于此;

要么将电机尺寸做小,但手的抓握力会随之受到影响;

要么效仿特斯拉第三代灵巧手将电机布局从手掌移到手臂,但这又意味着可能给信号传输和动力传递带来时延,进而影响手指动作精度,手指与电机之间连接绳的寿命和维护也是一大挑战……

被动自由度则和传动相关,而传动方案也是灵巧手技术路线的最大分歧点。

灵初智能灵巧手技术人员王帮向AI科技评论解释,腱绳方案的灵活度更高,但其一致性和刚度略差,寿命也构成问题,长期使用后腱绳易拉伸变形,导致精度下降;连杆方案则以牺牲一定自由度换取可控性,结构稳定但柔性抓取能力不足。从这一维度来看,灵活性与可控性似乎站在了难以调和的对立面。

AI科技评论多方询问后发现,目前国内厂商仍以连杆方案为主流,尤其已量产者普遍为确保可靠性走相对保守的技术路线。部分厂商甚至直言,做绳驱明显就是不想量产,特斯拉的灵巧手短期内不会落地,可能仅仅是为了采集数据。

但仍有厂商愿意冒险挑战主流。曦诺未来是国内为数不多采用全绳驱方案的灵巧手,其技术人员称可以通过创新结构和腱绳材料克服蠕变问题。此外,以智元 Skill Hand 为例的“丝杠+连杆+腱绳”混合传动方案也正浮出水面。

此外,业内关于灵巧手的结构设计还有全掌与断掌之争,后者通过在手掌增加一个自由度,适应不规则物体的抓取;传感方案上,大部分厂商采取力触觉传感器,而自变量机器人在其灵巧手上加装了摄像头,以应对操作过程中的遮挡问题……

“灵巧手的技术路线远远未达成共识。”一位从业者表示,电机、腱绳、连杆的不同组和,会带来不同的精度、响应效率、负载载重、自由开合区间,“哪个参数更重要?各家认知都不一样,甚至可以说,尽管都可以称之为灵巧手,但各家在做的完全不是一种东西,而是几百种不同的产品。”

最 AI:无智能的灵巧手与夹爪无异

相比机械结构, AI 不足是灵巧手更为致命的“阿喀琉斯之踵”。

没有智能化的灵巧手本质与夹爪无异,甚至由于传动链路更长,重复定位精度基本只能达到 ±0.2 毫米,远低于工业夹爪的 ±0.02 毫米。传统二指夹爪需要每个任务单独编程,而灵巧手的意义在于多任务迁移和使用工具。

但现实情况是,当前的灵巧手也只不过是“单独编程”的变体——模型训练效果十分有限,纯数据驱动的手尚未出现,大部分动作仍然靠手写规则或遥操实现。

刚刚过去的 WAIC 和 WRC 现场,情况同样如此。有技术人员向 AI科技评论透露,要判断是否为模型驱动,看灵巧手抖不抖就行,因为模型训练是通过大量数据实现的,素材员每次采集数据时,手臂位置、移动速度都不可能是一样的,模型最终会取一个平均值,训练出来的动作多少会有一定抖动。

不过,业内仍普遍认为,软件提升潜力远大于硬件,软硬一体是必走的一条路。

目前路线已收敛到强化学习。曦诺未来的模型团队成员解释,他们会先在 Sim2Sim 中通过强化学习得到一个基础策略,然后在 Mujoco 中进行迁移学习验证,紧接着会挪到实体的手上,再进行 Sim2Real 的一致性验证。

大寰机器人CTO张新生表示,大寰的灵巧手训练模式采用基于触觉、关节位置、电机位置等数据的强化学习方式。这种方式在相对复杂的抓取动作中更有优势,能在短时间内训练收敛出可用的控制策略。

更深层面,灵巧手泛化不足的本质仍被认为是数据量匮乏,行业仍在等待涌现。

这首先是视觉数据和精准行为数据的欠缺。举例来说,即便是一个简单的杯子抓取,杯子的不同形状、不同方向、不同位置、不同环境和光照等等更都需要不断调整并收集数据,物理世界中所有可能出现的情况都要考虑在内。

触觉数据则更为匮乏,在灵巧手爆发之前,这一领域基本一片空白。

尽管多数灵巧手厂商都在灵巧手上加装了力觉、触觉传感器,但采集并将触觉模态数据真正投入训练是另一回事。多位业内人士从成本角度出发告诉 AI科技评论,短期内,触觉模态的意义不会很大,其真正爆发一定是具身智能在工业、商业应用彻底成熟,并开始进入交互要求更为精细的家庭场景之后。

但从长远计,触觉一定是大势所趋。已经有公司在提前布局。

张恒第认为,要让机器人真正理解物理世界,必须补齐触觉模态——这是仅靠视觉观察和语言描述无法实现的,“脱离接触力信息的AI,在预测变化如何发生时,总是学不会遵循现实世界的动力学约束。”

今年6月,帕西尼数据采集工厂正式启用。采集的数据分为两类,一类是诸如 pick and place、in hand manipulation 等元动作数据,预计年内会向全行业开源;另一类是产线工序、商业应用(如咖啡拉花)等垂类数据,帕西尼会自己训练消化或售卖。

“不到两个月时间,数据工厂已采集500多万条数据。我们希望把数据放出去,加速提升灵巧手和具身智能系统在各行业的落地。”张恒第表示。

数据采集完成后,灵巧手厂商会通过模态空间对齐或 LoRA 训练实现多模态数据的融合,即所谓“手眼协同”。各家在数据选择方面的表现基本是数据金字塔的不同组合,多个数据来源均会考虑,这和具身智能整体的情况一致。

对一些厂商而言,要实现泛化,更重要的是高质量数据而非大规模数据,因而仿真数据被置于鄙视链的底端。

自变量机器人是其中之一。据称,其用自研的端到端大模型实现了20自由度灵巧手的自主操作,提升数据质量是实现这种泛化的关键之一。在自变量机器人创始人王潜看来,数据质量上的差距能让模型训练效率拉开量级差异,数据环节的钱不能省,“有的时候通向目标最近的路往往是看上去最难的那条。”

量产方向:产线部署“手+臂”提供变局

灵巧手的买家会是谁?这个问题仍然没有一个统一的答案。

此前,很多人会认为会是整机厂。作为一项上游部件,灵巧手似乎只有组装在机器人本体上才有落地的可能。但在整机厂纷纷下场自研之后,灵巧手厂商不得不寻求更优解。打破僵局的希望寄托在终端客户。

AI科技评论询问多家灵巧手厂商后得知,科研客户仍占主流,来自高校、院所的订单占大头。此外,商业和工厂也有一些散单。至于优先哪一场景,争议颇大。

商业派如曦诺未来表示,灵巧手用在商超等场景会多一些。他们认为,工业场景对精准度要求高,在大脑尚未完全打通、算法仍不够精准流畅的情况下,工厂只有一些简单场景可落地,而这些场景实际并不需要这么高的自由度,再者人手本身也不以精度见长,以替代人手为目标的灵巧手可能也难以执行高精度任务。

除了商超,部分灵巧手厂商还在一些小众商业应用方向做了探索,比如灵初智能用灵巧手打麻将,为了优化用户打牌体验,他们特地调整了算法使之会“点炮”。

工业派如大寰机器人则表态会优先工业场景,当然这种选择也同其过往积累有关。

张新生认为,电爪对抓取成功率要求极高,特点是精密力控、大行程;灵巧手不是要同电爪这类精密执行器“抢活”,而是在中小批量柔性生产中替代人,优势在于柔性生产、快速部署和换型,比如抓治具、拣货、包装入盒等比人从事同类工作良率更高、一致性更好,但相对来说又有一定的容错率。

应用于工业场景的灵巧手往往手型更大,负载也更高。

出乎意料的是,3C、汽车等产线的客户对买手用手更积极。由于新品迭代速度快、定制化程度高,高柔性的特点使之需要频繁调整产线、更换末端执行器。在这样的背景下,灵巧手未来或许能提供一个一劳永逸的选择。

去年以来,优必选的灵巧手随着本体进入了一批汽车厂。有从业者表示,其实通常的搬运用更便宜的夹爪也可以做,但有些客户考虑到通用性,希望机器人既能搬运又能分拣,因此还是会配备灵巧手,不然则需要频繁更换末端执行器。目前工人搬运的料箱一般不得超过 15 公斤,灵巧手的负载足够覆盖。

帕西尼触觉传感器灵巧手早期的订单发生在2023年,客户将之用于了柔性产线等领域。

他对人形机器人抱有开放心态,认为在一些细分领域,臂加手的系统甚至会先落地。“人形机器人的价值在于多模态感知规划和以灵巧手为核心的灵巧执行,而非单纯的‘形似’人形。我们采集数据时也重点关注末端的运动学和动力学数据,而其它部分则由机器人的逆解来完成。”

产线直接购买灵巧手而不带机器人本体,为灵巧手厂商绕开整机厂提供了机会。

但无论是哪种场景,需求仍然比较零散。特别是从上游零部件拓展布局灵巧手的厂商散单居多,更多是传统产品的老客户看到有新品愿意一试。

“但客户往往把我们当成‘许愿池’。”有厂商苦笑:“他们总会幻想——你会推出一个非常棒的产品,可以解决一切问题。不就是个手吗?有那么难吗?但实际上目前能解决的问题基本只有搬运、分拣。”

一旦客户的高期望同技术现实发生碰撞,便会发现难以落地。

张新生也坦言,能体现出灵巧手的不可替代性的工业应用还有待开发。

归根结底,技术不成熟仍是最大桎梏。灵巧手的最大商用价值在于泛化性,而当前最大痛点也在于泛化不足。商用困境和智能化不足的问题绕在一起,导致其应用场景不聚焦,无法真正导入量产。

降本是唯一共识

围绕灵巧手技术路线、模型训练、量产的种种争议,其实最终都会归结于成本。

AI科技评论询问多家灵巧手厂商“灵巧手机械结构中最难、成本最高的是哪一部分”,得到最多的答案是电机。一只空心杯电机的价格约为一两千,按照一般灵巧手配备 6-12 个的数量估算,仅电机一项零部件成本便动辄几万。

而电机同主动自由度直接挂钩。因而不少厂商表示,更高自由度的手不是不能做,但自由度增加使价格直线上升,客户就更不愿意买单了。

因此,卖得最好的灵巧手往往不是自由度最高的,而是性价比最好的。以灵心巧手为例,目前其主力量产产品并不是自由度高达 42 个但售价直逼 10 万元的 L30,而是自由度均在 20 以上,售价分别为 1.9 万和 4.9 万的 L10 和 L20。据悉,另一家灵巧手公司也考虑量产低自由度版本的灵巧手,同时用高自由度版本的手做数据训练,对方称“量产版本计划先做8个自由度,看市场会不会买单”。

另一个有趣的点在于,除傲意科技称凭借自研电机将灵巧手重复定位精度做到了 ±0.1 毫米,其他品牌均止步于 ±0.2 毫米。魔法原子销售经理解释,这是相对可控成本内的最优选择,“当前阶段,用户不一定关心抓取成功率,但如果价格拉开很大差距,用户会买最便宜的。总之目前一切以成本为先。”

即便是跟随整机卖出去,到付费环节,用户也可能要求将灵巧手换成夹爪。

由此,灵巧手的商业化似乎陷入了一个“想要降本但又缺规模”的死循环,而理想的状态本应该是“规模量产—数据涌现—技术迭代—成本下降”。

主动降本因而成为启动飞轮的第一环。国产替代和设计上的精简优化是常见途径。

在国产替代的大趋势下,灵巧手的一些关键核心部件价格已经得到明显控制。以传感器为例,7年前指尖触觉传感器需要4万人民币以上,去年,帕西尼的一枚多维触觉传感器已降至3000元,今年的最低价格甚至进一步降低到了199元。

“触觉模态要用起来,价格必须低,价格低了应用才会多,有了应用才会有数据。价格的降低是正循环的一个好开端。”张恒第表示。

关键部件降价也将灵巧手推入了价格战。

早年间,国内采购一只 Shadow Robot 灵巧手大概需要 100 多万元,高阶款甚至高至 200 万元。随着国内玩家蜂拥入局,灵巧手的价格断崖式下跌, 10 万元以内已屡见不鲜,更有产品跌破万元。今年 4 月,灵心巧手推出的 17 自由度手 Linker Hand O7 定价仅 8800 元;一个月后,慧灵科技发布的 eHand-6 工业灵巧手更是将价格压至 2999 元。

但坚守高价赛道不肯降价的厂商也有,比如兆威灵巧手定价仍然在 10 万元以上。有业内人士认为,灵巧手降价的速度远远跑在技术升级速度之前,其本质如同年初所谓智驾平权,看起来一片热闹,但实际上低价款和高价款在各项参数上差距甚远,千元级灵巧手不过就是不实用的玩具。

无论如何,短期内降价确实打开了销路,这一点有目共睹。灵巧手甚至开始上线电商平台。大寰机器人是第一家在京东售卖灵巧手的企业,他们发现,高校、科研院所等客户群体往往要求现货、到货速度快,更加倾向于线上的方式采购灵巧手。

从出货量来看,因时机器人占据龙头,今年上半年销量超过 4000 台;此外,灵心巧手每月出货量为两三百台;傲意今年有望实现灵巧手销售额破 1000 万元。

但随着出货量攀升,另一个问题也随之而来——灵巧手生产的精细化程度比机器人本体更高,难以自动化,大部分情况下还要靠成熟工程师手动组装。

“我们争取有一天能用灵巧手组装灵巧手吧。”张恒第表示。不过目前,这仍是个美好的远景。


雷峰网原创文章,未经授权禁止转载。详情见 转载须知

随意打赏

提交建议
微信扫一扫,分享给好友吧。