9 月 25 日,百度智能云宣布分别针对算力、模型、AI 应用,全面升级了百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施,并升级代码助手、智能客服、数字人三大 AI 原生应用产品。
“目前在千帆大模型平台上,文心大模型日均调用量超过 7 亿次,累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。过去一年,文心旗舰大模型降价幅度超过 90%,主力模型全面免费,最大限度降低了企业创新试错的成本。”百度集团执行副总裁、百度智能云事业群总裁沈抖说道。
升级百舸 4.0:模型训练有效时长达 99.5%,可高效管理十万卡集群
“如今,整个云业务的增长正在从传统的云计算向所谓的 GPU 云以及异构算力进行转换。”百度副总裁谢广军在接受媒体采访时说道。
沈抖介绍称,GPU 集群有三个特征:极致规模、极致高密和极致互联。这些“极致”带来了两个严峻的挑战:第一,巨额的建设、运营成本。建一个万卡集群,单是 GPU 的采购成本就高达几十亿;第二,运维的复杂性急剧增加。硬件不可避免地会出故障,而规模越大出故障的概率就越高,比如 Meta 训练 llama3 的时候,用了 1.6 万张 GPU 卡的集群,平均每 3 小时就会出一次故障。在这些故障中,绝大多数是由 GPU 引起的。
“过去一年,我们感受到客户的模型训练需求猛增,需要的集群规模也越来越大。与此同时,大家对模型推理成本的持续下降的预期也越来越高。这些都对 GPU 管理的稳定性和有效性提出了更高要求。”沈抖表示,为此百度智能云大幅升级并发布百舸 AI 异构计算平台 4.0。
最下面是资源层,支持异构芯片管理、高速互联、高效存储;组件层解决的是大规模集群稳定和性能的问题;加速层是面向客户大模型训练、推理的需求设计;最上面的工具层是一套管理界面。
百度百舸 AI 异构计算平台 4.0
在集群创建阶段,企业通常需要进行大量复杂、琐碎的算力配置和调试工作。沈抖介绍道,百舸 4.0 预置了主流的大模型训练工具,能够实现工具层面的秒级部署,并将万卡集群运行准备时间从几周缩减至 1 小时,极大地提升部署效率,缩短业务上线周期。
在开发实验阶段,企业需要针对业务目标对不同架构、参数的模型进行多次测试,进而制定最佳模型训练策略,保障后续训练的性能和效果。百舸 4.0 全新升级的可观测大盘,能够对多芯适配、集群效能、任务自动容错等方面进行全方位监测,提供直观决策依据。
在模型训练阶段,稳定和高效是衡量 GPU 集群水平的“金指标”、“硬通货”。一张 GPU 出现故障就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。为此,百舸 4.0 支持自动筛查集群状态,并基于对 GPU 故障的精准预测,及时转移工作负载,降低故障发生频次。此外,百舸独有的故障秒级感知定位、Flash Checkpoint 模型任务状态回滚等技术,能够大幅减少集群故障处置时间,实现接近无损的集群容错。
据介绍,目前百舸在万卡集群上实现了有效训练时长占比 99.5%以上,此外,据悉百舸 4.0 通过在集群设计、任务调度、并行策略、显存优化等一系列创新,大幅提升了集群的模型训练效率,整体性能相比业界平均水平提升高达 30%。
在模型推理环节,百舸则通过架构分离、KV Cache、负载分配等一系列加速方法,实现了模型推理的降本提效,尤其在长文本推理方面,推理效率提升超过 1 倍。
沈抖认为,大模型的 Scaling Law 将在一段时间内持续有效,很快就会有更多的十万卡集群出现,但是管理十万卡的难度与管理万卡有着天壤之别。
首先,在物理空间方面,十万卡集群需要占据大概 10 万平方米空间,相当于 14 个标准足球场的面积;在能耗方面,每天则要消耗大约 300 万千瓦时的电力,相当于北京市东城区一天的居民用电量。这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。此外,十万卡集群中的 GPU 故障将会非常频繁,有效训练时长占也将迎来新的挑战。
为此,百舸 4.0 已经构建了十万卡级别的超大规模无拥塞 HPN 高性能网络、10ms 级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸 4.0 正是为部署十万卡大规模集群而设计的。今天的百舸 4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说道。
发布千帆 3.0:三大服务全面升级,一句话即可生成企业级应用
“模型开发尤其是大模型开发,在 toB 市场上的需求比直接调用的需求来得晚。”谢广军表示,“随着应用本身的深入落地,也会越来越多,越来越广。”
为了满足企业客户对模型调用、模型开发、应用开发三方面的需求,百度智能云发布千帆大模型平台 3.0。根据介绍,升级后的千帆平台可以调用包括文心系列大模型在内的近百个国内外大模型,还支持调用语音、视觉等各种传统的小模型。同时在价格方面,文心旗舰大模型过去一年降价幅度超过 90%、主力模型全面免费。
文心大模型家族全景图
对于需要定制、微调专属模型的用户,千帆 3.0 提供了一系列大模型工具链,支持 CV、NLP、语音等传统模型的开发,并实现数据、模型、算力等资源的统一纳管和调度。模型投入使用后,千帆平台还支持企业将应用中产生的数据,经过采样评估、人工标注、对齐或微调等方式反馈给模型,形成数据飞轮,持续优化模型效果。
千帆平台大模型工具链
在应用开发方面,针对企业落地大模型的高频应用场景,千帆 3.0 从检索效果、检索性能、存储扩展、调配灵活性四方面对企业级检索增强生成(RAG)进行了全面升级;针对企业级 Agent 的开发,千帆 3.0 增加了业务自主编排、人工编排、知识注入、记忆能力以及百度搜索等 80 多个官方组件支持。
工具平台的不断完善,也促进了过去一年大模型产业落地的爆发式增长。据悉,目前在千帆平台上,文心大模型日均调用量超过 7 亿次,千帆平台累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。
此外,千帆行业增强版提供了体系化的工具和组件,支持行业客户、合作伙伴在千帆通用底座上不断添加行业特色,从而更方便地开发适合自己的行业应用。目前,千帆平台上已经沉淀了包括制造、能源、交通,政务、金融、汽车、教育、互联网在内的八大行业解决方案。
代码助手、智能客服、数字人全面升级
随着大模型产业落地逐渐走向深水区,AI 原生应用也将迎来爆发式增长,为了满足企业直接选购成熟 AI 应用的需求,百度智能云面向数字人、智能客服、代码提效三大领域,升级了三大 AI 原生应用产品。
基于文心大模型重构的 AI 原生智能客服应用“客悦”,在用户复杂意图理解、多模态信息交流等方面实现了大幅提升,让智能客服变得更聪明、更拟人。据介绍,“问题自助解决率”是智能客服领域最关键的考核指标,当前业内平均水平是 80%,升级后的客悦将这一指标提升至 92%,实现业界领先。目前,客悦已累计帮助企业客户服务超过 1.5 亿人次,交互超过 5 亿次。
基于大模型能力,新升级的曦灵数字人 4.0 支持根据文字快速生成不同妆造、不同行业特色的 3D 数字人形象和视频。本次大会期间,曦灵平台宣布:将 3D 超写实数字人的价格从万元大幅降价至 199 元,达到业内最低价。
曦灵数字人 4.0 全新升级的 4D(3D+时间维度)自动绑定技术和创新模态迁移技术,还解决了传统 2D 数字人动作僵硬的问题,可以实现人物在不同角度、形体、表情的高度一致。
全新升级的全流程 AI 代码提效工具“文心快码”,聚焦研发全生命周期的业务流,实现了从项目接手到最终交付,全流程编码开发效率与质量的双重提升。
文心快码业界首发“企业级代码架构解释”、“企业级代码审查”,两项全新功能。企业级代码架构解释能在项目接手初期,实现工程架构的智能解读,帮工程师快速理解业务逻辑;而企业级代码审查则能传承资深工程师的编码经验,智能辅助程序员查缺补漏。
此外,针对市面上通用代码助手缺乏对企业历史代码库的理解的痛点,文心快码全新升级的“企业级代码辅助能力”能够深度理解企业代码库,快速学习企业过往的代码与规范,让生成的代码更贴近企业的要求。
目前,文心快码已经服务超过 1 万家企业客户,帮助数百万中国开发者提升编码效率,整体提升研发效率 20%。
评论