写点什么

自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿

  • 2023-04-12
    北京
  • 本文字数:1937 字

    阅读完需:约 6 分钟

自动驾驶生成式大模型DriveGPT来了:基于4000万公里量产车驾驶数据训练,参数规模1200亿

4 月 11 日,InfoQ 获悉,自动驾驶创企毫末智行发布了业内首个自动驾驶生成式大模型 DriveGPT,中文名“雪湖·海若”。


自动驾驶生成式大模型 DriveGPT 雪湖·海若


自动驾驶生成式大模型 DriveGPT 雪湖·海若,有望成为大模型技术落地自动驾驶新范式。


毫末智行 CEO 顾维灏介绍了雪湖·海若名字的来源:“‘海若’出自《庄子·秋水》,里面有两个神话人物河伯和北海若。河伯请教北海若,何谓大小之分,北海若教导,不因天地而觉大,不因毫末而觉小。毫末雪湖·海若,寓意智慧包容、海纳百川,为行业发展贡献力量。”



毫末 DriveGPT 雪湖·海若通过引入驾驶数据建立 RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化。它的最终目标是实现端到端自动驾驶,现阶段主要用于解决自动驾驶的认知决策问题,后续持续会将毫末多个大模型的能力整合到 DriveGPT。


目前,毫末 DriveGPT 雪湖·海若实现了模型架构与参数规模的升级,参数规模达到 1200 亿,预训练阶段引入 4000 万公里量产车驾驶数据,RLHF 阶段引入 5 万段人工精选的困难场景接管 Clips。


DriveGPT 雪湖·海若的底层模型采用 GPT(Generative Pre-trained Transformer)生成式预训练大模型,与 ChatGPT 使用自然语言进行输入与输出不同,DriveGPT 输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景 Token 化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。(DriveGPT 雪湖·海若)DriveGPT 雪湖·海若的实现过程是,首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管 Clips 数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。同时,DriveGPT 雪湖·海若还会根据输入端的提示语以及毫末 CSS 自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。


在应用方面,DriveGPT 雪湖·海若的首发车型是新摩卡 DHT-PHEV,即将量产上市。顾维灏提到,DriveGPT 雪湖·海若可以逐步应用到城市 NOH、捷径推荐、智能陪练以及脱困场景中。有了 DriveGPT 雪湖·海若的加持,车辆行驶会更安全;动作更人性、更丝滑,并有合理的逻辑告诉驾驶者,车辆为何选择这样的决策动作。对于普通用户来说,车辆越来越像老司机,用户对智能产品的信任感会更强,理解到车辆的行为都是可预期、可理解的。



目前,毫末 DriveGPT 雪湖·海若已正式对外开放,开启对限量首批客户的合作,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等已经加入。毫末 DriveGPT 的对外开放及服务,将促进自动驾驶的从业者和研究机构快速构建基础能力。


毫末 DriveGPT 雪湖·海若将率先探索四大应用能力,包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。当前,毫末在使用数据过程中,逐步建立起一套基于 4D Clips 驾驶场景识别方案,具备极高性价比。在行业上,给出正确的标注结果,一张图片需要约 5 元;如果使用 DriveGPT 雪湖·海若的场景识别服务,一张图片的价格将下降到 0.5 元。单帧图片整体标注成本仅相当于行业的 1/10。接下来,毫末会将图像帧及 4D Clips 场景识别服务逐步向行业开放使用,这将大幅降低行业使用数据的成本,提高数据质量,从而加速自动驾驶技术的快速发展。



大模型研发离不开庞大的算力支撑。


顾维灏介绍,毫末在 2023 年 1 月发布的中国自动驾驶行业最大的智算中心 MANA OASIS(雪湖· 绿洲)此次从算力优化等层面升级了三大能力,进一步支持 DriveGPT 雪湖·海若的算力。首先,毫末与火山引擎全新搭建了“全套大模型训练保障框架”,实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数个月没有任何非正常中断,有效保证了大模型训练稳定性;其次,毫末研发出以真实数据回传为核心的增量学习技术,并将其推广到了大模型训练,构建了一个大模型持续学习系统,自主研发任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到 95%;最后,MANA OASIS 通过提升数据吞吐量来降本增效,满足 Transformer 大模型训练效率,通过引入火山引擎提供的 Lego 算子库实现算子融合,端到端吞吐提升 84%。


毫末打造的自动驾驶数据智能体系 MANA,在经过一年多的应用迭代后,也迎来了全面的升级,正式开放赋能。顾维灏介绍,MANA 计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到 OASIS 中;其次,MANA 感知和认知相关大模型能力统一整合到 DriveGPT 雪湖·海若中;第三,增加了使用 NeRF 技术的数据合成服务,降低 Corner Case 数据的获取成本;同时针对多种芯片和多种车型的快速交付难题优化了异构部署工具和车型适配工具。

2023-04-12 15:126403
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 534.0 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

无脚本自动化测试

FunTester

鱼传科技:函数计算,只要用上就会觉得香

阿里巴巴云原生

阿里云 云原生 函数计算

月日均AUM提升40倍!看这家银行如何做好网金客群分层经营?

索信达控股

科技 客户分群 网金客群

基于HTML5的爱心表白动画特效

梦笔生花

HTML5, CSS3 11月月更 爱心代码

什么是入侵检测系统?有哪些分类?

wljslmz

网络安全 11月月更 入侵检测 IDS

如何解决产品知识培训问题?

Baklib

Apache Doris Join 实现与调优实践|未来源码

MobTech袤博科技

体验不尽,进化不止,看视频云技术六大创新

阿里云视频云

阿里云 视频云 云栖大会 2022云栖大会

RocketMQ 在同程旅行的落地实践

Apache RocketMQ

消息队列 Apache RocketMQ

云原生时代数据库技术趋势与场景选型

OceanBase 数据库

快速实现无人车远程控制开发——实践类

阿里云AIoT

阿里云 物联网 远程控制

“工程化”对于大型数据平台而言,意味着什么?新一届StartDT Hackathon来了

奇点云

数据平台 奇点云

腾讯蓝鲸 API 网关如何借助 APISIX 实现产品升级与业务完善

API7.ai 技术团队

云原生 API网关 APISIX 客户案例

利刃出鞘 | 从五大核心技术来看Bonree ONE 2.0的全球竞争力

博睿数据

可观测性 核心技术 智能运维 博睿数据 ONE平台

什么是API

阿泽🧸

API 11月月更

HMS Core的AI之力与开发者的英雄本色

脑极体

手动在CentOS7.4环境下,安装MySQL5.7.X版本的方法。

@下一站

MySQL 程序猿 11月月更

Vue基础学习(三)

Studying_swz

Vue 11月月更

文档管理系统平台:实现文档管理现代化

Baklib

是谁的请求导致我的系统一直抛异常?

阿里巴巴云原生

阿里云 微服务 云原生

化繁为简|AIRIOT智慧水务信息化建设解决方案

AIRIOT

物联网 智慧水务

让开发者成为决定性力量,华为开发者英雄汇圆满落幕

华为云开发者联盟

云计算 华为云 企业号十月 PK 榜

【iOS逆向】小陈手牵手带你看懂iOS伪代码

小陈

移动安全 iOS逆向 ios安全

管控内部威胁,数据如何安全使用?

极盾科技

数据安全

butterfly美化日记(一)

程序员余白

Hexo butterfly 博客配置 11月月更

Prometheus Native Histograms 实现原理及应用

Grafana 爱好者

云原生 可观测性 Prometheus 11月月更

【愚公系列】2022年11月 微信小程序-app.json配置属性之tabBar

愚公搬代码

11月月更

下一代龙蜥操作系统 Anolis OS 23 公测版正式发布|2022云栖龙蜥实录

OpenAnolis小助手

开源社区 龙蜥操作系统 分层分类 2022云栖大会 Anolis23

华为全联接2022 openEuler 累计装机量达 245 万套,市场份额 22%,助力企业高效进行操作系统迁移

Geek_2d6073

为什么要做数据分析

穿过生命散发芬芳

数据分析 11月月更

算法题学习---判断链表中是否有环

桑榆

算法题 11月月更

自动驾驶生成式大模型DriveGPT来了:基于4000万公里量产车驾驶数据训练,参数规模1200亿_AI&大模型_刘燕_InfoQ精选文章