竞速与暗战,智能辅助驾驶迈入 Next Level

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

2025 年智能辅助驾驶战场,弥漫着 " 短平快 " 的焦虑。部分车企依赖人工采集 " 老司机数据 ",甚至雇佣数百人实车路测,成本高昂却效率低下。同时," 端到端 +VLM" 架构遭遇瓶颈——训练数据突破 1000 万 Clips 后,性能增长缓慢。实车测试无法复现极端场景,接管里程的数字繁荣背后隐藏着极端场景的未解难题。

面对这些现象,现有端到端模型已给不出更多答案,端到端模型像猴子开车,能够学习人类行为,但并不理解物理世界。传统用规则算法 " 修补 " 端到端缺陷的方式已然失效,而现在,理想、小鹏等造车新势力正在推翻现有架构,以全新的 VLA 大模型重燃新一轮智驾战火。

新势力押注 VLA

在最近理想和小鹏首发的 i8 和 G7 Ultra 中,VLA 成为关键技术。

理想 i8 核心亮点就是 VLA" 司机大模型 ",这是理想 汽车 智驾领域继去年推出 " 端到端 +VLM" 之后的又一新进展。理想 VLA 的所有模块经过全新设计,空间编码器通过语言模型并结合逻辑推理,给出合理的驾驶决策,并通过 Diffusion(扩散模型)预测其他车辆和行人的轨迹,进一步优化出最佳的驾驶轨迹。

竞速与暗战,智能辅助驾驶迈入 Next Level 8 月 15 日,小鹏汽车宣布,小鹏 G7 Ultra 的 VLA 能力再度提前,现已明确 8 月内可以开启首批推送。" 高速人机共驾 " 等功能,不仅即将登陆 Ultra 车型,也会通过 OTA 推送至 Max 车型。

竞速与暗战,智能辅助驾驶迈入 Next Level 据称,小鹏 G7 Ultra 车型将搭载本地端 VLA 模型,具备 VLA 思考推理可视化、语音控车、主动推荐等功能。这一版本使用了 3 颗小鹏汽车自研的图灵 AI 芯片,综合算力高达 2250TOPS。

" 端到端 +VLM" 被视为区分智能辅助驾驶技术的分水岭。在此之前,NPN(先验网络)轻图、无图均是人工时代的技术,而人工时代的最大特点是 " 规则算法 ",需要工程师设计算法并编写程序,因此提升辅助驾驶性能依赖于工程师的能力和经验。

然而,从 " 端到端 +VLM" 开始,车企不再用传统的方式做," 端到端 +VLM" 架构的本质是模仿学习,是用人类驾驶数据训练模型,数据数量和质量决定性能。

这场智能辅助驾驶的比拼特别像体育界的铁人三项,要想赢得竞赛,需要三个核心要素:技术、工程和产品。智能辅助驾驶要实现好用、爱用,需要关注两个维度。一个是 Scale up(性能提升),即把系统打磨到可以处理各种极端环境和复杂交通流;另一个是 Scale out(场景泛化),即系统在全场景下在不同的时间、天气、环境和不同的城市都可以有很好的表现。

从技术路径看,无论端到端也好,还是 VLM 也罢,最后来看都将殊途同归,就是建立 VLA 流程,整体系统会更加接近于人的应激反应,(感知)看到什么,(规控)就能做出相应的驾驶动作。不少智驾行业人士都将 VLA 视为当下 " 端到端 " 方案的 2.0 版本,认为这是未来确定的技术路线,只是实现的时间快慢问题。

在智能辅助驾驶的发展过程中,VLA 和一段式端到端是两个较为主流的技术路径。

VLA 作为一种融合了视觉(Vision)、语言(Language)和操作决策(Action)的多模态大模型,是介于传统模块化和端到端之间的技术架构。它不直接控制车辆,而是先把路况转化为 " 语义信息 ",比如把感知硬件看到的车道、障碍物、红绿灯等信息做成语义标注,包括文本描述和视觉关联,动作生成器综合视觉和语义信息输出决策。

竞速与暗战,智能辅助驾驶迈入 Next Level 从理论上分析,作为多模态大模型,VLA 具有强大的场景推理和语言理解能力,可适应复杂、边缘情况或动态交通环境。此外,由于融入了 " 世界知识 " 和 " 常识推理 ",VLA 理论上具备更高上限的智能行为。

比如,VLA 可以理解城市中的 " 潮汐车道 "" 公交车道 " 等指示牌的文字信息,甚至可以理解驾驶者的语音指令并做出相应的动作。

VLA 架构下,端到端与多模态大模型的结合将会更彻底。但更具挑战的是,当端到端与 VLM 模型合二为一后,车端模型参数将变得更大,这既要有高效实时推理能力,同时还要有大模型认识复杂世界并给出建议的能力,对车端芯片硬件有相当高要求。

如何将端到端与多模态大模型的数据与信息进行深度交融,实现软硬件的无缝融合与协同配合,将考验着每一个智能辅助驾驶团队的模型框架定义能力、模型的工程开发能力以及模型快速迭代能力。

在过去一年,几乎所有主流的车企在辅助驾驶上都更新成了端到端大模型驱动的系统,在短时间内性能和体验提升都比较明显。但端到端黑盒的研发模式,导致了部分 Corner Case 无法追溯产生的原因,这也导致一部分车企很快地从 " 热恋期 " 进入到了 " 瓶颈期 "。

即使是当前 TOP 级别的端到端系统,在面临复杂道路结构叠加复杂车流博弈时大多数情况也会崩溃。行业普遍面临瓶颈,所以很自然地有公司开始探寻上限更高的新架构。

而 VLA 通过语言模型的引入,很好地解决了研发和用户两端黑盒的问题。

不过,这并不意味着端到端不值得投入开发。如果规则算法都做不好,那么根本不知道怎么去做端到端;如果端到端没有做到一个非常极致的水平,那连 VLA 怎么去训练都不知道。换句话说,在端到端上取得大规模成功量产经验,是探索 VLA 的一个门槛。

为什么是 VLA?

过去几年,辅助驾驶经历了三种架构的迭代:规则算法、端到端、VLA,这是一个从指令控制,到模仿行为,再到理解意图的过程。每一代技术都在不停地提升算力、平均接管里程,本质上是要不断接近人类的驾驶方式。

辅助驾驶的人工时代到现在 AI 时代的分水岭,是从无图到端到端。在原来轻图、NPN 或者无图的人工时代,辅助驾驶的核心是规则算法。

最早的辅助驾驶采用模块化架构,由于感知、规划及执行系统相对独立,且每个步骤都要占用一定的计算时间,整体系统的响应较慢,延时较高。

简单来说,就是需要在既定的规则下,同时依赖高精地图,类似蚂蚁的行动和完成任务的方式。但无法完成更复杂的事情,需要不断地加限定规则。

人工时代的局限性在于,单靠人力难以解决所有场景,很多场景是 " 按下葫芦起来瓢 ",于是辅助驾驶进入了端到端时代。

端到端阶段通过大模型学习人类驾驶行为,足以应对大部分泛化场景,但端到端很难解决从未遇到过或特别复杂的问题,此时需要配合 VLM。VLM 对复杂交通环境具有更强的理解能力,但现有 VLM 在应对复杂交通环境时只能起到辅助作用。

" 端到端 +VLM" 的核心是模仿学习,用人类驾驶的数据来训练模型。这个技术阶段,决定性的因素就是数据。数据多,覆盖的场景全,数据质量好——最好是来自老司机,这时训练模型的性能就会非常好。

但模仿学习终究有上限。相比过去只依赖真实驾驶数据,VLA 采用生成数据和仿真环境结合的方式,让模型能在无风险、可控的虚拟世界中自主进化。这套思路如今也正在被更多车企采纳,VLA 正成为智能驾驶的新共识。

由于人类驾驶数据存在严重的分布不均,大多集中在白天、晴天、正常通勤等常规场景,真正复杂或危险的工况数据稀缺且难以采集。而训练具备真实决策能力的模型,恰恰需要这些边缘与极端场景。

这就要求引入合成数据和高质量仿真环境,用生成式方法构建覆盖更全、分布更广的数据集,同时不断评测模型表现。最终决定模型性能提升速度的关键,不是收集了多少真实数据,而是仿真迭代的效率。相比传统的数据驱动方式,这是一种更具主动性的训练方式。

事实上,VLA 并不是一套跳级的打法,而是端到端之后的自然发展。如果没有经历过端到端阶段对模型感知、决策、控制等环节的完整训练,就无法一步跨入 VLA。

在 VLA 阶段,利用 3D 视觉和 2D 的组合构建更真实的物理世界,此阶段系统可实现看懂导航软件的运行逻辑,而非 VLM 阶段仅能看到一张图。

同时,VLA 不仅能看到物理世界,更能理解物理世界,具有自己的语言和思维链系统,有推理能力,可以像人类一样去执行一些复杂动作,能够更好的处理人类驾驶行为的多模态性,可以适应更多驾驶风格。

在海量的优质数据的加持下,VLA 模型在绝大多数场景下能接近人类的驾驶水平;随着偏好数据的逐步丰富,模型的表现也逐步接近专业司机的水平,安全下限也得到了巨大的提升。

VLA 虽然给自动驾驶行业提出了新的可能,但实际应用依旧面临很多挑战。

首先是模型可解释性不足,作为 " 黑盒子 " 系统,很难逐步排查在边缘场景下的决策失误,给安全验证带来难度。

其次,端到端训练对数据质量和数量要求极高,还需构建覆盖多种交通场景的高保真仿真环境。另外,计算资源消耗大、实时性优化难度高,也是 VLA 商用化必须克服的技术壁垒。

为了解决上述问题,车企也正在探索多种技术路径。如有通过引入可解释性模块或后验可视化工具,对决策过程进行透明化;还有利用 Diffusion 模型对轨迹生成进行优化,确保控制指令的平滑性与稳定性。同时,将 VLA 与传统规则引擎或模型预测控制(MPC)结合,以混合架构提高安全冗余和系统鲁棒性也成为热门方向。

智能辅助驾驶接近决战时刻

理想、小鹏并不是智能辅助驾驶领域的先行者,当技术方向清晰后,它们迅速通过投入大算力和海量的数据,快速验证路径,追上了对手。这种路径适用于车辆保有量大、且驾驶数据可有效回传的车企。但随着时间的推进,落后者的机会窗口逐渐缩窄。

从端到端到 " 端到端 +VLM" 再到 VLA,其中需要面临很多现实难题,比如多模态对齐工程庞大,成熟度亟待提升,多模态数据的获取和训练也十分困难,对于算力需求更是水涨船高。

目前,行业应用的主流英伟达 Orin 芯片单颗算力 254TOPS,且不支持直接运行语言模型。而英伟达 Thor 芯片由于存在设计缺陷和工程问题,实际算力与宣传数据相比大幅缩水,其中 Thor S、Thor U 版本的算力约为 700TOPS,而 Thor Z 基础版算力约为 300TOPS,对于端到端 +VLM 的算力需求而言,都依然紧张。

算力不足会导致大模型在推理过程中可能出现时延超过 200 毫秒的问题,而自动驾驶系统对于紧急制动等操作的响应时间要求是控制在 100 毫秒以内。

正因如此,目前行业内的芯片算力大战正在逐渐升温。除了英伟达,高通推出的 8797 舱驾一体芯片最高支持 350TOPS 算力,也已成为车企的选择之一。

而车企,尤其是新势力企业自研 AI 芯片已经逐渐成为潮流,其中,理想汽车自研的马赫(原名 " 舒马赫 ")100 大算力 AI 芯片,尽管尚未透露参数,但今年 5 月已经流片成功,计划 2026 年量产。

特斯拉下一代全自动驾驶(FSD)芯片 AI 5 已进入量产阶段,单颗算力或达到 2500TOPS,较 AI 4 提升 4~5 倍,据称最快在今年年底启用。

此外,多模态对齐使得 VLA 需要依赖海量的标注数据来实现,然而在实际应用场景中,雨天反光、夜间弱光等并不常见的极端场景相关数据积累不足,将影响 VLA 的决策准确率及可靠性。所以,VLA 要实现大规模落地,至少需要 3~5 年时间甚至更久。

VLA 的大规模落地,本质是算法、算力、数据技术革命的交汇。短期(2025~2026 年)具备 VLA 功能的车型将在高速公路、封闭园区等特定场景运行,典型应用包括自动泊车、高速领航等。

中期(2027~2029 年),随着算力达 2000TOPS 及以上新一代 AI 芯片量产,VLA 将覆盖城市道路全场景,平均无接管里程将显著提升,或突破 100 公里,接管率或降至 0.01 次 / 公里以下。

长期(2030 年后),将出现如光计算架构等专用 AI 芯片,并与脑机接口技术融合,或将使 VLA 实现类人驾驶的直觉决策能力,如准确预判行人突发行为的概率等。

多模态对齐成熟度、训练效率提升、芯片能效比革命等一些关键因素,都可能在未来 3~5 年迎来新的突破,为 VLA 大规模落地提供更好支持。

然而,技术路线的骤然升级与竞赛变奏,为还没发力端到端的玩家设置了更高门槛,后发制人的机会更加稀少,距离智能辅助驾驶的决战时刻已经越来越近。

来源: 极智 GeeTech

随意打赏

提交建议
微信扫一扫,分享给好友吧。