QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

百度智能云旗舰模型一年降价超 90%,万卡集群有效训练时长达 99.5%

  • 2024-09-25
    北京
  • 本文字数:3225 字

    阅读完需:约 11 分钟

大小:1.66M时长:09:39
百度智能云旗舰模型一年降价超90%,万卡集群有效训练时长达99.5%

9 月 25 日,百度智能云宣布分别针对算力、模型、AI 应用,全面升级了百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施,并升级代码助手、智能客服、数字人三大 AI 原生应用产品。

 

“目前在千帆大模型平台上,文心大模型日均调用量超过 7 亿次,累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。过去一年,文心旗舰大模型降价幅度超过 90%,主力模型全面免费,最大限度降低了企业创新试错的成本。”百度集团执行副总裁、百度智能云事业群总裁沈抖说道。

 

升级百舸 4.0:模型训练有效时长达 99.5%,可高效管理十万卡集群

 

“如今,整个云业务的增长正在从传统的云计算向所谓的 GPU 云以及异构算力进行转换。”百度副总裁谢广军在接受媒体采访时说道。

 

沈抖介绍称,GPU 集群有三个特征:极致规模、极致高密和极致互联。这些“极致”带来了两个严峻的挑战:第一,巨额的建设、运营成本。建一个万卡集群,单是 GPU 的采购成本就高达几十亿;第二,运维的复杂性急剧增加。硬件不可避免地会出故障,而规模越大出故障的概率就越高,比如 Meta 训练 llama3 的时候,用了 1.6 万张 GPU 卡的集群,平均每 3 小时就会出一次故障。在这些故障中,绝大多数是由 GPU 引起的。

 

“过去一年,我们感受到客户的模型训练需求猛增,需要的集群规模也越来越大。与此同时,大家对模型推理成本的持续下降的预期也越来越高。这些都对 GPU 管理的稳定性和有效性提出了更高要求。”沈抖表示,为此百度智能云大幅升级并发布百舸 AI 异构计算平台 4.0。

 

最下面是资源层,支持异构芯片管理、高速互联、高效存储;组件层解决的是大规模集群稳定和性能的问题;加速层是面向客户大模型训练、推理的需求设计;最上面的工具层是一套管理界面。

 

 

百度百舸 AI 异构计算平台 4.0

 

在集群创建阶段,企业通常需要进行大量复杂、琐碎的算力配置和调试工作。沈抖介绍道,百舸 4.0 预置了主流的大模型训练工具,能够实现工具层面的秒级部署,并将万卡集群运行准备时间从几周缩减至 1 小时,极大地提升部署效率,缩短业务上线周期。

 

在开发实验阶段,企业需要针对业务目标对不同架构、参数的模型进行多次测试,进而制定最佳模型训练策略,保障后续训练的性能和效果。百舸 4.0 全新升级的可观测大盘,能够对多芯适配、集群效能、任务自动容错等方面进行全方位监测,提供直观决策依据。

 

在模型训练阶段,稳定和高效是衡量 GPU 集群水平的“金指标”、“硬通货”。一张 GPU 出现故障就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。为此,百舸 4.0 支持自动筛查集群状态,并基于对 GPU 故障的精准预测,及时转移工作负载,降低故障发生频次。此外,百舸独有的故障秒级感知定位、Flash Checkpoint 模型任务状态回滚等技术,能够大幅减少集群故障处置时间,实现接近无损的集群容错。

 

据介绍,目前百舸在万卡集群上实现了有效训练时长占比 99.5%以上,此外,据悉百舸 4.0 通过在集群设计、任务调度、并行策略、显存优化等一系列创新,大幅提升了集群的模型训练效率,整体性能相比业界平均水平提升高达 30%。

 

在模型推理环节,百舸则通过架构分离、KV Cache、负载分配等一系列加速方法,实现了模型推理的降本提效,尤其在长文本推理方面,推理效率提升超过 1 倍。

 

沈抖认为,大模型的 Scaling Law 将在一段时间内持续有效,很快就会有更多的十万卡集群出现,但是管理十万卡的难度与管理万卡有着天壤之别。

 

首先,在物理空间方面,十万卡集群需要占据大概 10 万平方米空间,相当于 14 个标准足球场的面积;在能耗方面,每天则要消耗大约 300 万千瓦时的电力,相当于北京市东城区一天的居民用电量。这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。此外,十万卡集群中的 GPU 故障将会非常频繁,有效训练时长占也将迎来新的挑战。

 

为此,百舸 4.0 已经构建了十万卡级别的超大规模无拥塞 HPN 高性能网络、10ms 级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸 4.0 正是为部署十万卡大规模集群而设计的。今天的百舸 4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说道。

 

发布千帆 3.0:三大服务全面升级,一句话即可生成企业级应用

 

“模型开发尤其是大模型开发,在 toB 市场上的需求比直接调用的需求来得晚。”谢广军表示,“随着应用本身的深入落地,也会越来越多,越来越广。”

 

为了满足企业客户对模型调用、模型开发、应用开发三方面的需求,百度智能云发布千帆大模型平台 3.0。根据介绍,升级后的千帆平台可以调用包括文心系列大模型在内的近百个国内外大模型,还支持调用语音、视觉等各种传统的小模型。同时在价格方面,文心旗舰大模型过去一年降价幅度超过 90%、主力模型全面免费。

 

 

文心大模型家族全景图

 

对于需要定制、微调专属模型的用户,千帆 3.0 提供了一系列大模型工具链,支持 CV、NLP、语音等传统模型的开发,并实现数据、模型、算力等资源的统一纳管和调度。模型投入使用后,千帆平台还支持企业将应用中产生的数据,经过采样评估、人工标注、对齐或微调等方式反馈给模型,形成数据飞轮,持续优化模型效果。

 

 

千帆平台大模型工具链

 

在应用开发方面,针对企业落地大模型的高频应用场景,千帆 3.0 从检索效果、检索性能、存储扩展、调配灵活性四方面对企业级检索增强生成(RAG)进行了全面升级;针对企业级 Agent 的开发,千帆 3.0 增加了业务自主编排、人工编排、知识注入、记忆能力以及百度搜索等 80 多个官方组件支持。

 

工具平台的不断完善,也促进了过去一年大模型产业落地的爆发式增长。据悉,目前在千帆平台上,文心大模型日均调用量超过 7 亿次,千帆平台累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。

 

此外,千帆行业增强版提供了体系化的工具和组件,支持行业客户、合作伙伴在千帆通用底座上不断添加行业特色,从而更方便地开发适合自己的行业应用。目前,千帆平台上已经沉淀了包括制造、能源、交通,政务、金融、汽车、教育、互联网在内的八大行业解决方案。

 

代码助手、智能客服、数字人全面升级

 

随着大模型产业落地逐渐走向深水区,AI 原生应用也将迎来爆发式增长,为了满足企业直接选购成熟 AI 应用的需求,百度智能云面向数字人、智能客服、代码提效三大领域,升级了三大 AI 原生应用产品。

 

基于文心大模型重构的 AI 原生智能客服应用“客悦”,在用户复杂意图理解、多模态信息交流等方面实现了大幅提升,让智能客服变得更聪明、更拟人。据介绍,“问题自助解决率”是智能客服领域最关键的考核指标,当前业内平均水平是 80%,升级后的客悦将这一指标提升至 92%,实现业界领先。目前,客悦已累计帮助企业客户服务超过 1.5 亿人次,交互超过 5 亿次。

 


基于大模型能力,新升级的曦灵数字人 4.0 支持根据文字快速生成不同妆造、不同行业特色的 3D 数字人形象和视频。本次大会期间,曦灵平台宣布:将 3D 超写实数字人的价格从万元大幅降价至 199 元,达到业内最低价。

 

曦灵数字人 4.0 全新升级的 4D(3D+时间维度)自动绑定技术和创新模态迁移技术,还解决了传统 2D 数字人动作僵硬的问题,可以实现人物在不同角度、形体、表情的高度一致。

 

 

全新升级的全流程 AI 代码提效工具“文心快码”,聚焦研发全生命周期的业务流,实现了从项目接手到最终交付,全流程编码开发效率与质量的双重提升。

 

文心快码业界首发“企业级代码架构解释”、“企业级代码审查”,两项全新功能。企业级代码架构解释能在项目接手初期,实现工程架构的智能解读,帮工程师快速理解业务逻辑;而企业级代码审查则能传承资深工程师的编码经验,智能辅助程序员查缺补漏。

 


此外,针对市面上通用代码助手缺乏对企业历史代码库的理解的痛点,文心快码全新升级的“企业级代码辅助能力”能够深度理解企业代码库,快速学习企业过往的代码与规范,让生成的代码更贴近企业的要求。

 

目前,文心快码已经服务超过 1 万家企业客户,帮助数百万中国开发者提升编码效率,整体提升研发效率 20%。

2024-09-25 15:577260

评论

发布
暂无评论
发现更多内容

液冷数据中心如何构建,蓝海大脑液冷技术保驾护航

GPU算力

液冷服务器

云管平台提供的功能一般包括哪些?采购需求主要是什么?

行云管家

云计算 企业上云 云管平台 云管理

Rust基本概念

Shine

读书笔记 rust

全运会开幕!天翼云全力打造“智慧赛事”

天翼云开发者社区

创新的力量天翼云推动科技创新技术实践落地

天翼云开发者社区

沈阳飞桨领航团Meetup邀请你来,探索AI如何赋能智慧城市

百度大脑

云原生技术赋能ISV实现应用现代化

York

云原生

3个月夯实基建,鲜丰水果这样实现研发数字化

阿里云云效

云计算 阿里云 云原生 持续交付 研发运维

它来了,它来了!开源圈 KOL 的江湖对谈第二季要来了!

OpenTEKr

开源 程序员人生 开源社区 开源软件 优秀开源项目

加密市场普跌 虎符交易所平台币HOO却能连续2个月逆势上涨

区块链前沿News

Hoo 虎符交易所 平台币

对话|鲜丰水果:“看不见”的门店数字化

阿里云云效

云计算 阿里云 云原生 持续交付 数字化运维

观点丨新经济 DTC 转型,一个简单而强大的数据平台至关重要

PingCAP

【C语言】猜数字小游戏

謓泽

3月月更

天翼云中南数字产业园落地长沙“天心数谷”初具雏形

天翼云开发者社区

CVE-2021-3129:Laravel远程代码漏洞复现分析

华为云开发者联盟

安全 漏洞 代码复现 CVE-2021-3129 base64 标准

OpenVSCode云端IDE加入Rainbond一体化开发体系

北京好雨科技有限公司

VuePress 博客之 SEO 优化(二)重定向

冴羽

Vue 前端 vuepress SEO 重定向

微服务中台技术之视频处理

小江

架构 ffmpeg 视频处理 电商系统

图数据库实操:用 Nebula Graph 破解成语版 Wordle 谜底

NebulaGraph

数据库 开源 图数据库 分布式图数据库

如何基于 OpenKruise 打破原生 Kubernetes 中的容器运行时操作局限?

阿里巴巴云原生

常见问题(FAQ)页面的搭建步骤

小炮

社区活动 | Apache Pulsar SIG(特别兴趣小组开放)!欢迎大家加入

Apache Pulsar

开源 架构 云原生 Apache Pulsar pulsar 社区

微博评论高性能高可用计算架构

李大虾

#架构实战营 「架构实战营」

2. 堪比JMeter的.Net压测工具 - Crank 进阶篇 - 认识yml

MASA技术团队

从“半部电台”到“云监工” 天翼云助力红色电信启航新征程

天翼云开发者社区

【堡垒机】2022年云堡垒机品牌排名大比拼!

行云管家

云计算 网络安全 堡垒机 企业安全

昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!

Geek_32c4d0

昇腾

Java培训JVM 高频面试题

@零度

JVM JAVA开发

测试在项目流程中的那些事儿

有道技术团队

4个迭代,从批量交付到持续交付转型

阿里云云效

云计算 阿里云 云原生 研发团队 研发

AI+生物计算:用计算机视觉技术理解细胞生命

百度大脑

百度智能云旗舰模型一年降价超90%,万卡集群有效训练时长达99.5%_AI&大模型_褚杏娟_InfoQ精选文章