端到端多元突围,Momenta、卓驭、鉴智、元戎、绝影的未竟之战

2025-04-05ASPCMS社区 - fjmyhfvclm

️【摘要】中国自动驾驶行业的端到端技术竞赛,随2024年初马斯克访华开始愈演愈烈。

️但截至2025年,这场革命仍未诞生统一标准,Momenta、卓驭、鉴智、元戎、绝影五家分化出了不同的阶段式差异。

️技术路线分化背后,也是数据主权、算力效率与商业模式的博弈。

️这场未竟之战,充满了技术理想与量产现实的碰撞,也决定了中国自动驾驶从跟随到重构全球规则的关键转折。

以下为正文:

2024年初,FSD V12悄然间在北美开始加速落地。紧接着的4月28日,特斯拉创始人兼CEO埃隆·马斯克闪电访华,争取获得数据方面的相关批准。这一事件在当时被称为特斯拉FSD入华的“鲶鱼效应”。

加之智驾技术本身趋向跃迁节点,自此,端到端的故事开始流传于国内各大智驾公司。

去年一整年,国内但凡讲高阶智驾的车企与供应商,几乎都在冲刺“端到端”。

然而,与过去迅速变化的智驾热点不同,当时间行进至2025年3月,这场高阶智驾的狂欢却仍未形成统一的标准答案。

当媒体追问“何为真正的端到端”时,不同的受访公司可以从“感知规划一体化”讲到“全栈自研大模型”,答案差异颇大。从这个角度看,尽管端到端已从技术概念蜕变为商业利器,但其技术内核似乎仍处于诸子百家时代。

与此同时,国内厂商的动作也不尽相同。商汤绝影以5.4万块GPU开讲世界模型,利用仿真数据加持;Momenta在量产车数据飞轮基础上,开始冲刺一段式端到端;卓驭早早就开始用两段式端到端布局平民路线,利用硬件优势在去年底就推出了32TOPS和100TOPS算力的端到端智驾方案;元戎在今年不断宣发VLA端到端计划;鉴智则是从数据闭环和基础设施破局,与车企深度共建,寻求弯道超车的机会。

至此,一场熟悉的,关于技术路线、商业模式乃至生存哲学的未竟之战,又一次在数据与算力的硝烟中悄然升级。

️01

️端到端路线分类

端到端架构爆火之前,智能驾驶系统大致由感知、决策、规控三个核心板块组成,大致可以按下图理解,不同板块分别承担智能驾驶的典型任务。

而端到端自动驾驶的核心定义则是:将传统模块化架构中割裂的感知、决策、规控等环节融合为单一模型,实现从传感器输入到车辆控制指令输出的全流程自动化。

从这个原始的定义看,最初所说的端到端,实际上是“一段式端到端”,通俗来讲就是全流程贯通,传感器信号直接映射为控制信号,中间不保留任何人工定义的功能模块。

这种路线显然相对较为激进,但效果被寄予厚望。按照绝影智能汽车事业群总裁王晓刚此前的说法,“一段式方案很难,但一旦模型学出来能力会很强,这才是我们追求的自动驾驶里面的ChatGPT时刻”。

特斯拉的路线便是纯视觉一段式端到端大模型。

但从上述定义看,一段式端到端的重要基础便是数据资源,这也是去年流传FSD入华时马斯克率先访华的重要任务。

实际上,即使在当前这一节点,对于不少车企和供应商而言,即使能够将感知和规控合成一段式大模型,但受制于车型销量不够多、数据不够大,也无法形成有效覆盖、足够有底气的落地应用。

有了一段式,两段式的概念便随之而来。从定义看,“两段式端到端”的架构稍微复杂一些,仍然保留了“感知”和“决策+规控”两个流程,这也是业内流传的渐进式方案。

按照一位智驾产品经理的看法,就目前阶段而言,模块化的两段式端到端方案,即规控部分使用基于规则化和基于神经网络的规控算法并行,既可以使智驾更加拟人化,提高系统性能上限,又可以有相对的安全兜底,守住系统下限,是当前阶段智驾系统最优的解决方案之一。

除此之外的第三类思路是端到端架构与多模态大模型的结合。

所谓多模态大模型,指的是在多种数据模态(如文本、图像、声音等)上进行训练的人工智能模型。业内较火的VLM(视觉-语言模型),以及基于此更进一步的VLA(视觉-语言-动作模型),都属于多模态大模型。

基于此,也衍生出了VLA端到端、VLM端到端的思路,旨在通过统一的语言空间表征实现从传感器输入到规划任务输出的完整自动化流程。

VLA目前尚不成熟,处于预研阶段,整体完成度比较好的是Waymo EMMA,除Waymo外,Wayve也宣称其在构建以端到端AI为核心的AV2.0智驾系统。

️02

️五大厂商路线对比

仅就方案商而言,国内冲刺高阶智驾的几家大多都在第一时间组建了端到端团队,部分甚至很早就建立了预研团队。

其中,商汤绝影属于一段式端到端路线(不考虑量产),Momenta从去年下半年也开始冲刺一段式,卓驭属于两段式/模块化端到端路线,元戎则属于VLA端到端路线(不考虑量产)。

一段式端到端方面,绝影的技术路线源于2022年商汤及联合实验室提出的行业首个感知决策一体化的自动驾驶通用模型UniAD,后者荣获CVPR 2023最佳论文。

具体而言,UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化的端到端智能驾驶。2024年北京车展,商汤绝影展出了这一方案的阶段性成果。

近期,商汤绝影又发布了行业首个与世界模型协同交互的端到端自动驾驶技术路线R-UniAD,通俗来讲是把强化学习引入到端到端自动驾驶训练中,并加入了与世界模型的协同交互,用仿真数据做强化。

当然,跨越式端到端的难点有目共睹,业内不选择这个更激进的方案,不仅因为资源瓶颈,也因为对技术路线的平滑度存在顾虑。

对于绝影选择一段式端到端,业内的评价也并不一致。

业内人士分析,一段式端到端对技术的研发能力要求非常高,绝影本身继承了商汤曾经的学术化气质,技术研发的底子厚,更像一个半学术组织,所以才有了这样的决策。现在判断路线正确与否还为时过早,关键还是要看技术的量产落地如何。

与绝影不同,鉴智的破局路线是寻求与车企的深度共建。后者是业内少有的破开车企与方案商零和博弈的心态,“车企与算法公司的协同,不仅是技术升级的需求,更是构建数据闭环、降低基础设施投入的必然选择。”

举例而言,鉴智机器人率先与岚图汽车展开深度合作,双方以量产项目为基石,共享数据与工具链,共同推进高速NOA规模化落地,同时加速推进端到端城区NOA量产。

算法能力自研,数据和岚图共建,并打造基础设施和工具链,实现端到端。这一模式不仅助力车企在智驾标配战役中占据先机,更通过数据反哺加速技术迭代,为后续降本普惠奠定基础。据悉,鉴智的端到端全场景城区智驾方案,已经与岚图共同打造中。

从运营逻辑上看,这个实现路径也是中小型算法供应商最好的破局路线。

业内余下的几家中,市占率和上车数据较多的Momenta,从去年开始就主张端到端用一个大模型来贯通智驾的感知、预测决策、控制环节,从过往工程师手写规则告诉车辆如何行驶,到使用AI大模型、海量数据、云端大算力,让智驾具备自我进化能力。

按照曹旭东受访的口径,Momenta在2023年初量产两段式端到端,2024年进化到一段式端到端方案。

据此前宣发消息,上汽智己、东风日产都与Momenta联合开发了一段式端到端高阶智驾系统。

两段式/模块化端到端方面,卓驭选择也相对较为保守。

与一众从创立之初就高调宣布远大目标的智驾公司相比,卓驭科技反而一直在扎根中算力路线,一直在追求低算力实现高阶功能。

举例而言,行业主流“端到端”智驾方案大多基于英伟达Orin-X芯片平台,至少需要254TOPS算力,像用于仰望品牌的比亚迪天神之眼A,算力达到508TOPS,长安汽车也表示未来高阶智驾汽车将全系标配500TOPS以上的算力。

但2024年底卓驭推出的32TOPS和100TOPS算力端到端智驾方案中,前一方案硬件配置为7个摄像头+TDA4 VH芯片,搭载在宝骏、奇瑞iCAR等车型上,可实现高速巡航和城区记忆领航,今年上半年将实现端到端城市领航;100TOPS版本使用了高通Ride 8650芯片,可支持城区无图NOA,已在一汽红旗的E007、E009等车型上量产落地。二者都是在用中算力做端到端。

这种折中也让端到端更加“可解释”,能获取相应的感知和预测结果。

从战略风格上看,卓驭似乎一直不在乎谁更能代表“纯血”端到端,而一心趴在了能如何解决端到端上车问题上,这似乎更符合当下车企对性价比的狂热追寻。

VLA端到端方面,元戎启行CEO周光在公司C轮融资之后便透露,本轮融资,元戎启行将主要用途放在夯实国内量产项目,拓展海外业务,同时为元戎启行探索Robotaxi商业化运营和布局VLA等前沿技术提供资金支撑。

按照智驾网此前的报道,周光的想法更加独特,在他看来,现在所有的一段式、两段式方案都是端到端1.0(版本),甚至都不能称之为端到端,而元戎则已经投入了更多的精力在下一站的VLA模型,这才是端到端2.0(版本)。

按照官方消息,元戎下一步计划在英伟达Thor芯片上进行开发,不过Thor推迟到明年年中量产,高性能Thor估计年底,因此其VLA大概率到时才能卷起声量。当前元戎正在做高通平台的适配,志在出海。

VLA 的落地有其难度。除了模型本身的研发需要时间,硬件的限制无法逾越。现在市面上可采购到的芯片,性能基本都无法支持 VLA 的运行。

不过,值得一提的是,长城汽车可能与元戎有关联。

据企查查数据,深圳元戎第六大股东为保定讯奇科技有限公司,保定讯奇的上一层控制主体为保定市莲池区南大园乡集体资产经管中心(即魏建军老家的乡镇资产)。

具体而言,长城如此操作既能保持对元戎的影响力,又避免了上市公司与供应商的强绑定关系,资本市场监管压力相对更少,为将来操作留下了部分余地。

除此之外,长城当前的智驾策略是三条腿赛马,同时与毫末智行、Momenta、元戎都有接触。如果直接入股元戎,与其他供应商的关系很可能会变得更加微妙,这一选择尚不影响其根据市场变化灵活调整供应商组合,保留了更多动态选择权。

️03

️尾声:端到端的中国式突围

中国端到端生态的多元性,本质上还是技术理想与商业现实碰撞的产物,这与十年前自动驾驶刚刚在业内兴起时的选择有不少相似之处。

如何抢节点、怎样做前瞻布局,很可能也埋下了当前这些公司的未来结局。

短期来看,数据与算力的平权可能为成为胜负手。

故事的另一面,卓驭在讲一个算力效率的故事,能够提供的是绝对规模之外的超车路径。

与此同时,VLA模型与端到端的结合,正在模糊自动驾驶与通用人工智能的边界,尽管尚未量产,已经拿到了不少资方关注。

在这场未竟之战中,中国厂商擅长的事情是迅速进化,当特斯拉端到端不再如鲶鱼入海,中国式突围正在重新定义新的驾驶思维。

全部评论