作者 | 华卫
预计再过不到半年,特斯拉 FSD 就将正式入华了。9 月 5 日,特斯拉宣布,FSD 将于 2025 年第一季度在中国和欧洲推出。
而前不久,基于端到端的特斯拉 FSD V12 版本在推送后得到了业内外的众多好评。就连曾多次与特斯拉公开“互怼”的小鹏汽车董事长何小鹏,都发文评价特斯拉自动驾驶“表现极好”,还激动地表示“2025 会是完全自动驾驶的 ChatGPT 时刻!”
以 GPT 为代表的大模型正以其前所未有的创新速度和技术架构,深刻影响着自动驾驶领域的方案研究与发展模式,并且全球的行业版图都在迅速响应这一热潮。从目前国内车企的发力重点来看,端到端也已成为其新一代自动驾驶技术路线。
华为、小鹏、小马智行、Momenta、极佳科技、地平线等乘用车自动驾驶企业都在积极跟进,纷纷推出了面向量产的端到端自动驾驶解决方案和车型。在商用车方面,零一汽车也公布了端到端大模型上车的明确时间规划。理想汽车创始人兼 CEO 李想也公开声称,理想汽车将在三年内依靠端到端和世界模型实现 L4 级自动驾驶。
就连此前遭遇“寒流”的 L4 自动驾驶市场,也因端到端技术的到来有所回暖。依靠这一技术概念拿下 10 亿美元级别融资的 Wayve,便是一大例证。辰韬资本投资经理刘煜冬表示,“端到端为 L4 商业化开启了第二个成长曲线。”
凭借端到端令 FSD 能力飞跃的特斯拉还宣布,将在 10 月 10 日推出 Robotaxi 车型。何小鹏也公开透露,小鹏汽车将在 2026 年推出 Robotaxi。然而,近期车企和自动驾驶厂商一心通过端到端方案实现量产 L4 的动作和预期,引来了不少自动驾驶从业者的质疑:端到端是否被过度“神话”?
端到端为何突跃智驾圈“顶流”?
端对端并非这一两年内才横空出世,早在 2017 年就有不少公司在探索这种技术路线的可能性。今年“端到端”在自动驾驶圈翻红并被业内视为杀手锏技术,除 ChatGPT 等大语言模型带来的革新外,与其自身的“魅力”也有必不可分的关系。
“端到端模型的诞生,是自动驾驶技术通向大规模商业化的必经之路。”小马智行联合创始人、首席技术官楼天城表示,端到端模型最大的优点之一是泛化性,泛化性能够提高自动驾驶商业化的速度,加速自动驾驶的普及。
而据零一汽车智驾负责人王泮渠介绍,相比端到端,传统非端到端的自动驾驶系统不仅泛化性较差,而且在向新场景扩展时,很多之前所用的基于规则的方案会失效,新增加的代码又会使系统的可维护性变差,继而导致边际成本的上升。
除此之外,传统自动驾驶系统还存在两方面的劣势。第一是架构的复杂性,多模块的系统不仅开发成本更高,由于每个模块所分配到的计算资源较少,其性能上限也比较低,模块间的通信还会带来很多工程上的优化问题。第二是架构复杂带来的高成本问题,每个模块都需要做开发、维护、项目管理和集成等工作,这也是传统自动驾驶公司的团队规模都非常大的原因。
“在我看来,端到端能很好地解决这些问题。”王泮渠表示,从架构来说,端到端只有一个模块,可以很好地解决架构复杂问题,同时也具有降本增效的优势。基于数据甚至知识驱动的端到端泛化性非常强,很有可能快速实现量产,不仅可以将 L2 适配各种车型的成本降得非常低,还能够帮助 L4 减少适配不同场景的时间。
另外,楼天城指出,端到端最大的好处是防止不同模块和功能之间信息的丢失。极佳科技工程副总裁毛继明也谈到了这一方面,并解释道,模块之间涉及信息的有效传递问题,上下游模块的接口定义了传输信息的上限,但无论多么精细的接口设计,都会存在信息损失。而端到端的统一模块方案不存在这种信息损失,有助于提升最终的算法效果。
同时,毛继明还谈到了端到端架构拥有的更多其他优势。首先是模块误差方面,由于端到端在一个模块下,不存在多模块的误差放大效应,整体智驾算法的能力上限也得以最大程度的提升。其次,多模块架构中,每个模块都有单独的研发节奏和优化目标,并不总能严格对齐整个智驾系统的全局优化目标,导致了潜在的无效优化以及研发资源的投入浪费;而端到端架构只有一个模块,优化目标明确统一,可以有效避免这种内耗式的优化过程。
还有一点是,模块化架构的组件之间天然容易构成多个规则驱动的“域”,带来一系列维护挑战以及 corner case 解决困境;而端到端作为典型的完全数据驱动架构,会促使开发人员更积极主动的开始从数据驱动、模型驱动的思维范式去考虑问题和解决问题,提升整个算法团队的认知水平。
“整体来讲,端到端系统的开发效率更高,资源消耗也更少。”刘煜冬表示,端到端纯数据驱动的开发范式会减少很多原来的重工程资源投入,并将企业的资源重心转向数据驱动方面的高人才密度以及数据积淀的投入。
值得一提的是,端到端带来的用户价值也备受关注。刘煜冬指出,第一,在长尾场景的处理上,端到端系统能够比原来的系统覆盖更多的极限场景,如常识处理能力。第二,自动驾驶系统的行为更加拟人化,也能够更强地建立消费者和系统之间的信任,端到端在博弈性比较强的场景里更像人类司机。
上限高、下限低,自动驾驶的“终局”还没到?
尽管端到端的技术优势显著,且一众车企和自动驾驶企业都在积极跟进端到端的应用,但对于所谓“终局模式”的说法,业内至今仍众说纷纭。
坚定派如王泮渠表示,“我相信端到端一定是实现自动驾驶的最终形式,但端到端只是一个技术框架,不过具体实现的方式其实有非常多的选项,目前业界还没达成共识。”
理智派如毛继明指出,端到端方案具有“上限高,但下限低”的特点。通俗来说就是,做得好可以达到很好的效果,做的不好比传统方案更差。在毛继明看来,是否选择端到端方案要看具体的应用场景。对 L5 级无人驾驶而言,端到端就是唯一解;但对于 L2 和 L3 来说,端到端就只是其中一个可行方案。并且,端到端在应用时需要与其他技术方案进行组合搭配。
“端到端给自动驾驶的快速大规模普及提供了很好的技术路径,是否是终局还有待时间验证。”楼天城也有类似看法,认为目前无论是 L2 级还是 L4 级自动驾驶都已经在实现,但实现的质量如何、在多大范围实现,对技术有着不同的要求与标准。
对 L2 级别自动驾驶来说,端到端技术是目前的更优路径;对 L4 级无人驾驶来说,端到端可以帮助其快速开拓新区域。但 L4 对安全性要求更高,要达到人类驾驶员的 10 倍以上,因此除使用端到端外,还需结合驾驶意图、应用场景融入高确定性的指令,如交通法规、驾驶偏好等。
刘煜冬则给出了更为谨慎的论断:“目前来看端到端是可以预见的未来时间段内自动驾驶的终局,但是更长周期的技术演变有各种可能性。就像三年前我们想不到会有 ChatGPT 这样的技术出现,两三年之后也可能有新的技术架构出现颠覆现在的 ChatGPT。”
100% 端到端还未出现,何为“最佳实践”?
虽然尚不能明确端到端是否为自动驾驶的终局方案,但其落地应用显然已成为智能驾驶行业的共识方案。然而,业内对于端到端自动驾驶技术路径的选择仍存在诸多争议。
目前,零一汽车正沿着基于多模态大语言模型的端到端路线前进,不仅在一些公开的数据集上做出了效果,还在今年上海人工智能实验室联合 CVPR 等举办的自动驾驶国际挑战赛上,凭借纯视觉的自动驾驶解决方案,在端到端自动驾驶赛道的 143 支国际团队中拿到第二的成绩。
王泮渠认为,模块化端到端相当于是一个前期的探索,能更快地去做落地,目前学术界和工业界也有了相对成熟的方案。而采用基于多模态大模型的端到端技术路线有把自动驾驶变成赚钱生意的发展潜力,并且只有强泛化性的基座模型才能带来自动驾驶领域所需要的知识注入和融会贯通。
简单来说,大模型的强泛化性会为整个端到端系统带来性能的优势,也会为未来实现大规模量产的可盈利高阶自动驾驶带来可能。并且,未来分别基于多模态大模型和世界模型的这两条端到端技术路线可以互相复用。
刘煜冬表示,从原理上讲,one model 更加接近其他领域的 AGI 形态,而世界模型目前主要是数据生成的工具,能否用作自动驾驶系统还需要更长时间来观察。未来两年之内,落地的端到端方案主要有两种:一是模块化的端到端,典型代表是上海人工智能实验室的 UniAD;二是以多模态大模型为主要基础的 one model 端到端,如 Wayve 的 LINGO-2 和理想最近推出的 DriveVLM。
而对于世界模型,毛继明持有不同看法。他认为,世界模型才是端到端的合理解决思路。基于世界模型,智驾算法拥有了理解场景并对未来进行合理预测的能力,并基于这些信息做出决策,这才是更符合人类思维逻辑的方案。
极佳科技联合创始人、首席科学家朱政进一步补充道,one model 训练起来非常耗资源和时间,对于数据的规模和质量都有非常高的要求。而端到端是利用模型预测能力来进行场景感知和驾驶行为的决策,同人类的驾驶行为和习惯比较一致。据其介绍,目前极佳已经有了基于世界模型的端到端基础原型系统,正在和一家车厂做上车的联合验证,很快就会公开一些进展。
去年 8 月,小马智行将感知、预测、规控三大传统模块打通,统一成 one model 端到端自动驾驶模型,目前已同步搭载到 L4 级自动驾驶出租车和 L2 级辅助驾驶乘用车。在楼天城看来,目前无论是模块化端到端还是 one model,都处于早期阶段,还未经过量产交付的验证。预计未来 1 至 2 年内,端到端的技术路线才会从分歧走向共识。
“长远来看,端到端的终局终究要步入到 one model 形态。”毛继明表示,就当前状态,华为、小鹏等公司所采用的“两段式”端到端还都属于半端到端的实现,或者说处在端到端的过渡态而非完整态。
前不久,极越汽车 CEO 夏一平也公开谈到,“现在市场上没有任何一家是眞的端到端,都是营销的噱头。”据了解,目前极越的端到端智驾方案采用的也是“两段式”技术架构。
“黑盒”属性是误会,可以做成类似灰盒或白盒
端到端方案的一系列优势,源于其将多个模块融合在一起的架构,但这种设计也使得系统相较于原先的可理解的“白盒”更接近“黑盒”了,从而具备了更多“不可解释性”。
楼天城认为,不可解释性是端到端系统天然的缺陷,但是否会限制端到端自动驾驶技术的发展,要分情况看。对于 L2 来说,不可解释性并不影响端到端的应用,比如模块化端到端仍保留了各个主要功能模块,中间的输出特征可以被进一步提取为可解释的数据。
而对 L4 来说,其对安全性和确定性的要求是远高于 L2 的。因此,需要在模型中融入规则性的指令,如交通法规、驾驶偏好等,帮助端到端自动驾驶模型更好理解驾驶意图。与此同时,也需要升级模型能力,以对外输出驾驶意图,进一步提高可解释性。
而在朱政看来,虽然从产品层面和最终研发形态来看,端到端确实是一个黑盒,但以工程师和产品设计包括用户的角度来看,端到端是可以做成类似于灰盒或者白盒的。
第一,模块化联合端到端详细地区分了感知、预测和规划三个模块,任意一个 planning 结果都可以和前面的某个中间模块关联起来。第二,one model 可以输出模块化的中间结果,标注该结果用来做中间监督可以让 one model 收敛得更好,也可以把模式化中间结果拿出来给工程师或用户看。第三,世界模型最重要的是预测能力,而它的预测结果也可以和模式化的中间结果关联起来。
毛继明谈到,目前端到端的“黑盒”说法是对整个模型的训练推理细节的误解。只要把研发认知变成可对外解释的形态呈现出来,就不再是黑盒了。
王泮渠同样认为,不可解释性的提出反映的是公众对技术的信任度,即技术本身性能是否达到了大家可以接受的标准。随着数据驱动、算法设计,大模型安全等相关技术的发展,在未来一到两年端到端的性能与可靠性一定会有非常大的飞跃。再通过性能的大规模测试与充分验证,其可解释性不再会是关键问题。
端到端上车“高峰”将到来,商用车更快落地
“模块化端到端规模化上市就在最近一年内,基于大语言模型的端到端还额外需要 1 到 2 年的时间。”王泮渠指出,商用车的 L4 自动驾驶一定比乘用车的落地速度要快,原因是能大规模量产的高阶自动驾驶系统非常挑落地场景的难度,而商用车场景比乘用车简单,且单个场景容易商业闭环,也方便做场景渐近。
刘煜冬则更为乐观,认为明年模块化端到端和 one model 的端到端就会开始比较密集地开始推送。此外,刘煜冬站在技术发展的激进程度和人才集聚、技术迭代速度和技术应用难度上表示,端到端在商用车和乘用车真正落地的时间可能会差不多,但乘用车的落地范围会比商用车大,商用车要到后期再慢慢起来。
“端到端量产前必须要跨过这几道关,首先就是车端算力的准备,第二是端到端算法的迭代,第三是云端数据规模,第四是算力规模,第五是验证方案。”毛继明表示。
在他看来,目前特斯拉以及国内的蔚小理、华为等头部主机厂和公司,在车端算力、云端数据规模、和云端算力规模这三项上已经都齐备了。今年年底到明年上半年,几家头部车企的端到端算法就能够达到规模化上车;明年下半年起,行业就会迎来端到端量产上车的井喷状态。
入局端到端,意味着“重新来过”?
端到端系统的开发和采用,无疑会对整体智驾方案带来技术革命。那么,入局端到端要对之前的技术推倒重来吗?
刘煜冬认为,原来的自动驾驶技术并不会被完全颠覆,端到端会与其共用某些算法和软件方面的积累。
一是感知部分,现在很多端到端的前端摄像头信息处理部分会用到 BEV 的做法,如 backbone 或 encoder 之类。二是规控部分,原来在规控的一些 knowhow 可以迁移到端到端系统里。三是数据基建,这是企业未来做端到端所需的重要能力,能做好 BEV 方案的公司数据基建也比较强。
而在毛继明看来,是否会推翻,取决于之前的技术方案是什么。他表示,端到端以纯数据驱动的多模态大模型为核心,如果某智驾公司之前的技术方案有很多规则,那这些规则基本上就都要被推翻了;如果之前的技术方案就已经大部分改为模型驱动了,那这部分代码大概率能以某种形式重用。
需要强调的是,端到端算法所带来的研发模式更改,才是每个主机厂和自动驾驶公司需要关注的重点,也是最痛苦的地方。
王泮渠还谈到,除了模型端,端到端也需要做更多数据方面的工作:第一需要重构数据闭环体系及其迭代效率,第二是端到端的测试和验证,整个仿真平台的传感器输入都要做得非常真实,这是目前很有挑战的技术问题。但人力成本上,端到端智驾系统整体花费是低于非端到端的,因为端到端只有很少的模块,核心团队有 20-30 个工程师应该就够了。
此外,毛继明指出,从传统的模块化架构到端到端模式,智驾方案的成本构成也会发生转变:大量写各种规则的研发专家的人力成本会迁移到数据方面。这对有量产能力的主机厂来说是件好事,由于其获取数据的成本较低,智驾方案的整体成本实际会进一步显著下降。
算力投入方面,楼天城表示,短期来看,购买大算力芯片确实会增加当下成本。但长期来看,一旦端到端技术成熟应用,前期投入成本会逐渐摊薄。
纯端到端算力投入小于模块化架构,一年至少一到两个亿
“想要端到端模型达到比较好的训练程度,一年至少需要一到两个亿的算力资金投入,乘用车赛道数字肯定会更加可观。”
据王泮渠介绍,端到端所需的算力分训练和部署两方面。部署相当于要采购多少块域控,这部分成本固定且比较低,与单车成本相关。最大的成本是训练成本,分自建买卡和跟云服务商合作两种。对订单量比较大的车企来说,自己造数据中心是合算的选择;但对订单量没有那么大或处在前期研发阶段的车厂来说,找云服务商租服务器是较好的选择。
此前,理想汽车智能驾驶副总裁郎咸朋曾公开透露,目前理想每年投在算力训练上的花费是 10 亿人民币,预计未来每年都花费要到 10 亿美金。“如果一年拿不出 10 亿美金来去做训练的话,可能会在将来的自动驾驶竞争当中被淘汰。”
算力规模上,楼天城认为,如果只是简单的一次端到端自动驾驶模型训练,上百张大算力的 GPU 就可以支持。如果要长期投入,并保证端到端质量,各个自动驾驶公司的训练算力规模基本在上千卡级别,车企投入会更多。
毛继明则给出更为具体的端到端算力需求:整个系统至少需要两台英伟达 Orin 或者单台英伟达 Thor。他表示,纯端到端系统的算力需求小于模块化架构的总算力需求,但量产端到端除了主系统外,往往还有一个旁路系统,其算力需求一般与之前的模块化架构的相当。
但王泮渠认为,随着车端计算芯片能力的上升,算力并不会成为未来端到端上车的障碍。楼天城持相同看法,表示从经典架构到端到端,总的代码数量会显著降低,端到端神经网络带来的计算资源消耗相比 BEV 模型并不一定会显著提升。
“对更高算力的渴望更多来自于模型参数量和模型性能的提升,而不是来自于端到端的转变。”另外,他指出,从端到端落地应用角度出发,相关企业更应该思考的是,如何充分利用现有的芯片算力资源提升利用效率。
评论