写点什么

大模型时代,智算基础设施将走向何方?丨对话 AI 原生《云智实验室》

  • 2024-07-01
    北京
  • 本文字数:3422 字

    阅读完需:约 11 分钟

大小:1.67M时长:09:44
大模型时代,智算基础设施将走向何方?丨对话AI原生《云智实验室》

大模型时代,产业对算力的需求激增,然而模型的训练不仅仅是堆算力就可以解决所有问题,如何保障大模型训练的稳定性和效率,对 AI 基础设施提出了挑战。


大模型时代对于智算基础设施提出了何种新要求?智算基础设施又将如何助力企业实现数智化转型?带着这些问题,在《对话 AI 原生:云智实验室》栏目中,百度集团产品委员会联席主席宋飞与 InfoQ 编辑围绕“大模型时代,智算基础设施如何实现超进化”展开了一场思想碰撞。


点击链接收看《大模型时代,智算基础设施如何实现超进化?》

https://www.infoq.cn/video/4bBkYmuaP20lVa4U29kM


以下为本期栏目精华内容:


InfoQ:大模型时代,智算基础设施扮演了怎样的角色?市场对平台提出了何种新要求?百度智能云是怎么做应对的呢?


宋飞:大模型快速发展的背后是规模定律(Scaling Law),简单来说就是规模越大,大模型的效果越好,而这个“规模”包含了参数、规模等等。规模定律的发展,其实是建立在算力的高速发展上的,所以大模型过去的快速发展,其实就是在智算基础发展上去进行迭代、生长的,同时其也是基于智算基础设施对外提供服务的。所以可以认为,智算基础设施就是大模型时代的水电煤。


大模型时代这个智算基础设施,相比以前的小模型时代,它的特点的关键词就是“大”。这个”大“也包括参数规模比较大、存储容量比较大,进而要求它的集群规模很大,对于客户来说,进一步要求了对于它的投入也很大。针对这些新的特点,我们需要一个新的范式去设计我们的智算基础设施,令其拥有高性能,同时又兼具高性价比,才能满足大模型时代的需求。也是基于这个特点,百度智能云致力于去设计新的范式,以及相应的产品解决方案,来满足大模型时代对于算力的需求。我们推出了百度百舸·AI 异构计算平台,致力于在稳定性,性能以及可应用等特点去进行重点打造。


InfoQ所以针对大模型的“大”这个特点,智算基础设施其实要做的是一个“化繁为简”的工作。那么百度百舸与市面上的其他智算平台有何不同?可以从性能、架构以及各种角度来给我们深入分享一下吗?


宋飞:百舸平台源自于百度十多年在 AI 基础设施领域的技术积累和工程实践。在 2021 年推出 1.0 版本以后,百度百舸持续进行升级和完善,并且服务了自动驾驶、生命科学,泛科技等领域的一些客户。百度百舸其实确实在很多方面,我们也做了全面系统的一些工作,我们致力于让百度百舸为客户提供很好的一个解决方案,所以我们在很多方面,都做了全面系统的一些工作。针对行业关注的性能维度,我们通过全链路的性能手段,让 AI 基础设施在训练领域综合能力相比业界提升 30%以上,在推理领域,提升了 60%以上,为了实现这样的提升,我们在几个细节上做了提升:


首先是集合通信库,我们推出了百度的 BCCL 通信库,它基于开源的 NCCL 通信库,并对其进行了增强和拓展。同时我们在可观测性、稳定性,性能的诊断调优等方面做了大量的提升,能够帮助客户在训练阶段,能够快速的掌握集群的通信状态,及时的发现问题,并进行相关的一些调优。


同时在做大规模的分布式训练的时候,自动的并行策略对于性能有非常重要的影响,我们开发了自动并行策略的调优工作,能够使以前的并行策略的设置,从小时级提升到分钟级,大大提升了性能的发挥效率,并且其效果是好于普通专家设置的。


在稳定性层面,我们也开发了一个全面的自动容错机制。当集群规模大的时候,故障是不可避免的,这就需要去考虑如何去降低故障对于训练任务的影响。我们希望对硬件故障的监测做到全面的提升,当出现故障的时候,让任务能够快速的恢复、重启,并在全流程进行提升,从而让硬件故障导致的任务中断,从小时级缩短到分钟级,这能够极大的提升集群的资源利用率。


InfoQ:所以百舸的优势就在于更强的性能,以及更高的稳定性,同时在不断地业务实践中不断实现优化。那么针对算力限制的问题,百度是如何通过技术领先性去突破算力瓶颈的?


宋飞:第一点就是要提升这个算力的利用率。针对这一点,我们推出了 AIAK 加速库,在应用过程中,无论是训练场景还是推理场景,都能够把已有的芯片算力进行充分发挥。这其实也是一个系统的工程,在训练层面,从 I/O 的加速到算子库的建设,再到通信优化、显存优化,每个层面我们都要做到极致,这也是我们在产品里面提供的解决方案。


在推理层面,随着大模型的落地,算力需求会越来越大。对于推理角度算力利用率的优化,包含了从底层高性能的算子,到推理图的转换优化,也包括了对于请求动态,batch 调度的技术等等,通过对这些领域一系列手段的提升,从而提升算力利用效率,将它的性能充分发挥出来,简单来说,就是把已有的算力用好。


第二层面,为了解决算力瓶颈,各家企业都在去想办法引入更多元的算力供应。这就面临了一个问题:怎么把多元算力当成一个有机整体从而利用起来?针对这一点,我们推出了业界首发的多芯混合训练解决方案。第一步是把多家的芯片聚合起来,并对其进行合理组合,使其真正变可整体使用的集群。不同的芯片的特点也不一样,我们也要去做一些自适应策略的优化,从而让分布式训练的算法在多家芯片上真正运行起来。我们也要对各家的芯片进行算力层的抽象。这种抽象之后,可能对使用者来说,就不用再关心多元芯片的差异。


通过以上一系列的手段,我们在多芯混合训练层面也达到了比较好的效果,千卡的多芯混合训练的资源效能做到了 95%,在百卡能达到 97%。这种低损耗的表现,能够真正帮助客户把多芯能力充分的发挥出来。


InfoQ:第一是把已有的芯片能力发挥出来,第二是通过多芯混合自适应的能力去让其算力发挥到最大值,还有就是屏蔽硬件差异,让多元芯片能够协同去发挥更大的能量,这其实是一个效率优化的过程。那么针对客户侧的应用,在构建基础设施时,企业最关注的是哪些功能?


宋飞:企业在实施智算基础设施并进行 AI 产业的智能化转型时,通常会经历三个阶段:首先是迅速构建起集群;其次是结合自身业务需求,在集群中对原始想法进行训练和验证;如果验证无误,便进入第三阶段,即大规模进行线上部署,将技术投入生产并实际应用。


百度百舸致力于实现"低门槛"接入,除了平台提供的运维能力和稳定性等维度外,还需提供业界的最佳实践,确保客户在每个阶段遇到问题时都能获得相应的解决方案或建议。这也正是百度智能云持续在做的。


其次,是客户所关心的性价比问题。一方面,我们需要为客户提供合理的硬件选型方案。在这方面,百度凭借多年的积累,能够为不同客户、不同规模的需求提供最佳方案。另一方面,提升性能利用率是提高性价比的重要手段,这也是我们重点关注的方向。


实现 AI 普惠是一项系统性工程,它涉及到对客户业务的深刻理解,平台提供的最佳实践,以及在产品的核心基础指标上达到业界领先水平。


InfoQ:除了性能之外,低门槛、高性价比等平台特质也至关重要,那么百度智能云智算基础设施是如何通过咱们的平台能力以及工程化能力去解决这些需求的?可以结合真实的案例给我们分享一下吗?


宋飞:智算基础设施在客户侧的落地是一项系统工程,它要求我们在技术层面和实施方案上追求极致。我们针对核心客户关注点进行了深入工作,特别是在提高集群利用率方面取得了显著成果。例如,在通讯时间优化方面,我们通过计算与通信的重叠优化,成功将集群在分布式训练中的通信时间占比从 9%降低至 2%,显著提升了集群的利用率。


企业客户非常关注性价比,这不仅涉及算力层面,还包括存储层面。我们提供了多级存储解决方案,以适应 AI 任务训练的需求。在大量数据准备和实际训练中,并非所有数据都需要使用高性能存储。通过多级存储方案,企业可以在海量、低成本存储和高性能存储之间找到平衡。我们的产品矩阵包括对象存储 BOS、高性能存储 PFS 并行文件存储,以及缓存加速产品 RapidFS,能够满足性能和存储性价比的双重需求。


InfoQ:现在有一个论调,很多人都在说这个摩尔定律已经被打破了,全球的属于 AI 的产业革命正在到来,百度是如何看待这个趋势的?并且去应对这种产业革命的到来呢?


宋飞:首先,我们确实能够观察到,新一轮大模型的驱动正引领着产业变革的新浪潮。这场变革的大幕正在缓缓拉开。在这背后,技术的算力层面所支撑的规模定律,我们认为其当前仍然有效,并且预计在未来一段时间内还将持续发展。


百度也坚信这一点,并将持续坚持自主创新,在技术研发、生态建设和人才培养等方面加大投入。我们致力于持续推出业界领先的产品和解决方案。与合作伙伴携手,我们将加快创新的步伐,共同构建新的生产力,以真正推动产业的智能化变革。


点击链接收看本期节目:https://www.infoq.cn/video/4bBkYmuaP20lVa4U29kM


公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2024-07-01 16:335

评论

发布
暂无评论

【资料包】HDC.Together 2023精选Codelabs指南现已上线(内有活动)

HarmonyOS开发者

HarmonyOS

2024杭州国际3D打印技术展览会

吹吹晚风

一文预览 | 8 月 16 日 NVIDIA 在 WAVE SUMMIT深度学习开发者大会 2023精彩亮点抢先看!

飞桨PaddlePaddle

人工智能 百度飞桨 WAVE SUMMIT

企业文件外发系统必备八大要素

镭速

文件外发系统

aspera替代方案:探索这些安全且可靠的文件传输工具

镭速

aspera替代方案 文件传输工具

DTCC 2023即将启幕 明天见!

酷克数据HashData

Programming abstractions in C阅读笔记p111-p113: boilerplate

codists

规划性和可扩展性,助力企业全面预算管理的推进

智达方通

全面预算管理系统 智达方通EPM系统 财务规划与分析 多维模型

如何仅用几分钟就能破解8个字符长的密码?

高端章鱼哥

黑客 密码安全 破译密码

面试涨薪神奇操作,直接多给3k的JVM垃圾优化笔记

小小怪下士

Java 程序员 JVM 调优

洛阳等级保护测评机构有哪些?在哪里?咨询电话多少?

行云管家

等保 等级保护 等保测评 洛阳

IIOT WiFi solution/IPQ9574 VS IPQ8074 support MU-MIMO-Beamforming-Advanced Wireless Technology

wifi6-yiyi

wifi6 WiFi7

2024杭州国际工业装配及传输技术展览会

吹吹晚风

2024杭州国际伺服系统与控制技术展览会

吹吹晚风

小灯塔系列-中小企业数字化转型系列研究——知识管理测评报告

向量智库

断点续传的未来发展趋势与前景展望

镭速

断点续传 文件传输软件

语音聊天源码平台开发小知识

山东布谷网络科技

本地工具是什么意思?本地工具与远程工具一样吗?

行云管家

IT运维 远程工具 本地工具

2023城博会|上海国际智慧工地展览会

AIOTE智博会

城博会 上海城博会

极狐GitLab 上新:跳过无需备份项目,节约数 10 至 1000 倍时间与磁盘空间

极狐GitLab

DevOps gitlab 磁盘空间 数据备份恢复 备份时间

极狐GitLab 企业级 CI/CD 规模化落地实践指南(一)

极狐GitLab

DevOps cicd runner template Component

19. 第三方库的管理和虚拟环境

茶桁

Python pip conda

从零开始学极狐GitLab|03 Runner 裸机部署

极狐GitLab

DevOps gitlab cicd SaaS DevSecOps

2024杭州国际连接器及线束设备展览会

吹吹晚风

到底该不该使用Python?

这我可不懂

Python Go 数据库

达芬奇DaVinci Resolve Studio 18 for mac(视频调色软件) v18.5.1正式激活版

mac

苹果mac Windows软件 DaVinci Resolve Studio 专业视频剪辑软件

因为私域流量运营,App重新受重视?

FinFish

小程序生态 私域运营 小程序容器 私域流量运营 流量运营

突破大模型 | Alluxio助力AI大模型训练-成功案例(一)

Alluxio

机器学习 gpu 模型训练 大模型 AIGC

GeaFlow图计算快速上手之K-hop算法

TuGraphAnalytics

大数据 流计算 图计算 图论

百度百舸平台的大模型训练最佳实践

Baidu AICLOUD

容错机制 大模型训练 异构计算 CheckPoint

2024中国(深圳)国际VR/AR虚拟现实展览会

吹吹晚风

大模型时代,智算基础设施将走向何方?丨对话AI原生《云智实验室》_百度_王世昕_InfoQ精选文章