速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

百度智能云旗舰模型一年降价超 90%,万卡集群有效训练时长达 99.5%

  • 2024-09-25
    北京
  • 本文字数:3225 字

    阅读完需:约 11 分钟

大小:1.66M时长:09:39
百度智能云旗舰模型一年降价超90%,万卡集群有效训练时长达99.5%

9 月 25 日,百度智能云宣布分别针对算力、模型、AI 应用,全面升级了百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施,并升级代码助手、智能客服、数字人三大 AI 原生应用产品。

 

“目前在千帆大模型平台上,文心大模型日均调用量超过 7 亿次,累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。过去一年,文心旗舰大模型降价幅度超过 90%,主力模型全面免费,最大限度降低了企业创新试错的成本。”百度集团执行副总裁、百度智能云事业群总裁沈抖说道。

 

升级百舸 4.0:模型训练有效时长达 99.5%,可高效管理十万卡集群

 

“如今,整个云业务的增长正在从传统的云计算向所谓的 GPU 云以及异构算力进行转换。”百度副总裁谢广军在接受媒体采访时说道。

 

沈抖介绍称,GPU 集群有三个特征:极致规模、极致高密和极致互联。这些“极致”带来了两个严峻的挑战:第一,巨额的建设、运营成本。建一个万卡集群,单是 GPU 的采购成本就高达几十亿;第二,运维的复杂性急剧增加。硬件不可避免地会出故障,而规模越大出故障的概率就越高,比如 Meta 训练 llama3 的时候,用了 1.6 万张 GPU 卡的集群,平均每 3 小时就会出一次故障。在这些故障中,绝大多数是由 GPU 引起的。

 

“过去一年,我们感受到客户的模型训练需求猛增,需要的集群规模也越来越大。与此同时,大家对模型推理成本的持续下降的预期也越来越高。这些都对 GPU 管理的稳定性和有效性提出了更高要求。”沈抖表示,为此百度智能云大幅升级并发布百舸 AI 异构计算平台 4.0。

 

最下面是资源层,支持异构芯片管理、高速互联、高效存储;组件层解决的是大规模集群稳定和性能的问题;加速层是面向客户大模型训练、推理的需求设计;最上面的工具层是一套管理界面。

 

 

百度百舸 AI 异构计算平台 4.0

 

在集群创建阶段,企业通常需要进行大量复杂、琐碎的算力配置和调试工作。沈抖介绍道,百舸 4.0 预置了主流的大模型训练工具,能够实现工具层面的秒级部署,并将万卡集群运行准备时间从几周缩减至 1 小时,极大地提升部署效率,缩短业务上线周期。

 

在开发实验阶段,企业需要针对业务目标对不同架构、参数的模型进行多次测试,进而制定最佳模型训练策略,保障后续训练的性能和效果。百舸 4.0 全新升级的可观测大盘,能够对多芯适配、集群效能、任务自动容错等方面进行全方位监测,提供直观决策依据。

 

在模型训练阶段,稳定和高效是衡量 GPU 集群水平的“金指标”、“硬通货”。一张 GPU 出现故障就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。为此,百舸 4.0 支持自动筛查集群状态,并基于对 GPU 故障的精准预测,及时转移工作负载,降低故障发生频次。此外,百舸独有的故障秒级感知定位、Flash Checkpoint 模型任务状态回滚等技术,能够大幅减少集群故障处置时间,实现接近无损的集群容错。

 

据介绍,目前百舸在万卡集群上实现了有效训练时长占比 99.5%以上,此外,据悉百舸 4.0 通过在集群设计、任务调度、并行策略、显存优化等一系列创新,大幅提升了集群的模型训练效率,整体性能相比业界平均水平提升高达 30%。

 

在模型推理环节,百舸则通过架构分离、KV Cache、负载分配等一系列加速方法,实现了模型推理的降本提效,尤其在长文本推理方面,推理效率提升超过 1 倍。

 

沈抖认为,大模型的 Scaling Law 将在一段时间内持续有效,很快就会有更多的十万卡集群出现,但是管理十万卡的难度与管理万卡有着天壤之别。

 

首先,在物理空间方面,十万卡集群需要占据大概 10 万平方米空间,相当于 14 个标准足球场的面积;在能耗方面,每天则要消耗大约 300 万千瓦时的电力,相当于北京市东城区一天的居民用电量。这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。此外,十万卡集群中的 GPU 故障将会非常频繁,有效训练时长占也将迎来新的挑战。

 

为此,百舸 4.0 已经构建了十万卡级别的超大规模无拥塞 HPN 高性能网络、10ms 级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸 4.0 正是为部署十万卡大规模集群而设计的。今天的百舸 4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说道。

 

发布千帆 3.0:三大服务全面升级,一句话即可生成企业级应用

 

“模型开发尤其是大模型开发,在 toB 市场上的需求比直接调用的需求来得晚。”谢广军表示,“随着应用本身的深入落地,也会越来越多,越来越广。”

 

为了满足企业客户对模型调用、模型开发、应用开发三方面的需求,百度智能云发布千帆大模型平台 3.0。根据介绍,升级后的千帆平台可以调用包括文心系列大模型在内的近百个国内外大模型,还支持调用语音、视觉等各种传统的小模型。同时在价格方面,文心旗舰大模型过去一年降价幅度超过 90%、主力模型全面免费。

 

 

文心大模型家族全景图

 

对于需要定制、微调专属模型的用户,千帆 3.0 提供了一系列大模型工具链,支持 CV、NLP、语音等传统模型的开发,并实现数据、模型、算力等资源的统一纳管和调度。模型投入使用后,千帆平台还支持企业将应用中产生的数据,经过采样评估、人工标注、对齐或微调等方式反馈给模型,形成数据飞轮,持续优化模型效果。

 

 

千帆平台大模型工具链

 

在应用开发方面,针对企业落地大模型的高频应用场景,千帆 3.0 从检索效果、检索性能、存储扩展、调配灵活性四方面对企业级检索增强生成(RAG)进行了全面升级;针对企业级 Agent 的开发,千帆 3.0 增加了业务自主编排、人工编排、知识注入、记忆能力以及百度搜索等 80 多个官方组件支持。

 

工具平台的不断完善,也促进了过去一年大模型产业落地的爆发式增长。据悉,目前在千帆平台上,文心大模型日均调用量超过 7 亿次,千帆平台累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。

 

此外,千帆行业增强版提供了体系化的工具和组件,支持行业客户、合作伙伴在千帆通用底座上不断添加行业特色,从而更方便地开发适合自己的行业应用。目前,千帆平台上已经沉淀了包括制造、能源、交通,政务、金融、汽车、教育、互联网在内的八大行业解决方案。

 

代码助手、智能客服、数字人全面升级

 

随着大模型产业落地逐渐走向深水区,AI 原生应用也将迎来爆发式增长,为了满足企业直接选购成熟 AI 应用的需求,百度智能云面向数字人、智能客服、代码提效三大领域,升级了三大 AI 原生应用产品。

 

基于文心大模型重构的 AI 原生智能客服应用“客悦”,在用户复杂意图理解、多模态信息交流等方面实现了大幅提升,让智能客服变得更聪明、更拟人。据介绍,“问题自助解决率”是智能客服领域最关键的考核指标,当前业内平均水平是 80%,升级后的客悦将这一指标提升至 92%,实现业界领先。目前,客悦已累计帮助企业客户服务超过 1.5 亿人次,交互超过 5 亿次。

 


基于大模型能力,新升级的曦灵数字人 4.0 支持根据文字快速生成不同妆造、不同行业特色的 3D 数字人形象和视频。本次大会期间,曦灵平台宣布:将 3D 超写实数字人的价格从万元大幅降价至 199 元,达到业内最低价。

 

曦灵数字人 4.0 全新升级的 4D(3D+时间维度)自动绑定技术和创新模态迁移技术,还解决了传统 2D 数字人动作僵硬的问题,可以实现人物在不同角度、形体、表情的高度一致。

 

 

全新升级的全流程 AI 代码提效工具“文心快码”,聚焦研发全生命周期的业务流,实现了从项目接手到最终交付,全流程编码开发效率与质量的双重提升。

 

文心快码业界首发“企业级代码架构解释”、“企业级代码审查”,两项全新功能。企业级代码架构解释能在项目接手初期,实现工程架构的智能解读,帮工程师快速理解业务逻辑;而企业级代码审查则能传承资深工程师的编码经验,智能辅助程序员查缺补漏。

 


此外,针对市面上通用代码助手缺乏对企业历史代码库的理解的痛点,文心快码全新升级的“企业级代码辅助能力”能够深度理解企业代码库,快速学习企业过往的代码与规范,让生成的代码更贴近企业的要求。

 

目前,文心快码已经服务超过 1 万家企业客户,帮助数百万中国开发者提升编码效率,整体提升研发效率 20%。

2024-09-25 15:576994

评论

发布
暂无评论
发现更多内容

HarmonyOS NEXT华为音乐焕新升级,打造高品质沉浸式“音乐厅”

最新动态

《使用Gin框架构建分布式应用》阅读笔记:p127-p142

codists

golang gin 编程人 codists

喜报丨时序数据库 IoTDB 荣获“创客北京 2024”创新创业大赛专项赛优胜奖

Apache IoTDB

揭秘1024程序员节彩蛋:致敬鸿蒙生态一日千里的幕后英雄

最新动态

低代码开发:数字化转型,轻松“点”到为止!

不在线第一只蜗牛

低代码

可观测日北京|观测云:可观测性需要做到“三个一”

观测云

观测云

微博热搜API:实时数据获取与处理

幂简集成

API 微博

Tomcat服务启动失败:java.lang.OutOfMemoryError: Java heap space

百度搜索:蓝易云

通过curl命令分析http接口请求各阶段的耗时等

百度搜索:蓝易云

Apache Calcite 快速入门指南

端小强

Calcite

氢健康用品展|2025第36届广州国际大健康博览会

秋硕展览

系统数据安全解决方案(医疗行业Word原件)

金陵老街

信息安全 数据安全 数据互联互通

Claude 大更新,AI 可模仿人类访问电脑;月之暗面招募微软亚研院谭旭,研发类 GPT- 4o 的端到端语音模型

声网

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

声网

征程 6 环视快启 sample

地平线开发者

自动驾驶 算法

指标工厂赋能数据资产,实现标准化管理与高效利用

奇点云

大数据 互联网 数据资产 制造业

如何领导高级工程师团队

爱吃小舅的鱼

望繁信科技创始人索强出席2022福布斯中国·青年海归菁英100人评选颁奖典礼

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 望繁信科技

第71期 | GPTSecurity周报

云起无垠

spring-kafka中ContainerProperties.AckMode详解

百度搜索:蓝易云

适老化产品展|2025广州国际老年人残疾人辅具展会

秋硕展览

软件需求分析报告完整版(软件项目套用原件)

金陵老街

软件设计 需求分析 软件需求设计

ETLCloud搭配MySQL | 让关系型数据库更智能

RestCloud

MySQL 数据库 sql ETL 数据集成

麦杰科技携手小伙伴,一起做那些“难而正确的事”

麦杰研究院

免费报名!第五届“医疗大数据学术交流及 Datathon 活动”诚邀您的参加

ModelWhale

Nacos改为MySQL数据源报错:No DataSource set

百度搜索:蓝易云

2025深圳国际耐火材料及工业陶瓷展会(6月)

秋硕展览

和鲸科技亮相重庆市医学会临床流行病学和循证医学分会 2024 学术年会,探索临床研究标准化新路径

ModelWhale

人工智能 大数据 大模型 临床医学

Ubuntu中设置代理的方式

百度搜索:蓝易云

2025滋补品展-2025第六届深圳国际保健养生展会

秋硕展览

MatrixOne 助力 StoneCastle 打造高性能金融分析系统

MatrixOrigin

数据库 金融 HTAP

百度智能云旗舰模型一年降价超90%,万卡集群有效训练时长达99.5%_AI&大模型_褚杏娟_InfoQ精选文章