大模型时代，智算基础设施将走向何方？丨对话AI原生《云智实验室》

大模型时代，产业对算力的需求激增，然而模型的训练不仅仅是堆算力就可以解决所有问题，如何保障大模型训练的稳定性和效率，对 AI 基础设施提出了挑战。

大模型时代对于智算基础设施提出了何种新要求？智算基础设施又将如何助力企业实现数智化转型？带着这些问题，在《对话 AI 原生：云智实验室》栏目中，百度集团产品委员会联席主席宋飞与 InfoQ 编辑围绕“大模型时代，智算基础设施如何实现超进化”展开了一场思想碰撞。

点击收看《大模型时代，智算基础设施如何实现超进化？》完整版

以下为本期栏目精华内容：

InfoQ：大模型时代，智算基础设施扮演了怎样的角色？市场对平台提出了何种新要求？百度智能云是怎么做应对的呢？

宋飞：大模型快速发展的背后是规模定律（Scaling Law），简单来说就是规模越大，大模型的效果越好，而这个“规模”包含了参数、规模等等。规模定律的发展，其实是建立在算力的高速发展上的，所以大模型过去的快速发展，其实就是在智算基础发展上去进行迭代、生长的，同时其也是基于智算基础设施对外提供服务的。所以可以认为，智算基础设施就是大模型时代的水电煤。

大模型时代这个智算基础设施，相比以前的小模型时代，它的特点的关键词就是“大”。这个”大“也包括参数规模比较大、存储容量比较大，进而要求它的集群规模很大，对于客户来说，进一步要求了对于它的投入也很大。针对这些新的特点，我们需要一个新的范式去设计我们的智算基础设施，令其拥有高性能，同时又兼具高性价比，才能满足大模型时代的需求。也是基于这个特点，百度智能云致力于去设计新的范式，以及相应的产品解决方案，来满足大模型时代对于算力的需求。我们推出了百度百舸·AI 异构计算平台，致力于在稳定性，性能以及可应用等特点去进行重点打造。

InfoQ：所以针对大模型的“大”这个特点，智算基础设施其实要做的是一个“化繁为简”的工作。那么百度百舸与市面上的其他智算平台有何不同？可以从性能、架构以及各种角度来给我们深入分享一下吗？

宋飞：百舸平台源自于百度十多年在 AI 基础设施领域的技术积累和工程实践。在 2021 年推出 1.0 版本以后，百度百舸持续进行升级和完善，并且服务了自动驾驶、生命科学，泛科技等领域的一些客户。百度百舸其实确实在很多方面，我们也做了全面系统的一些工作，我们致力于让百度百舸为客户提供很好的一个解决方案，所以我们在很多方面，都做了全面系统的一些工作。针对行业关注的性能维度，我们通过全链路的性能手段，让 AI 基础设施在训练领域综合能力相比业界提升 30%以上，在推理领域，提升了 60%以上，为了实现这样的提升，我们在几个细节上做了提升：

首先是集合通信库，我们推出了百度的 BCCL 通信库，它基于开源的 NCCL 通信库，并对其进行了增强和拓展。同时我们在可观测性、稳定性，性能的诊断调优等方面做了大量的提升，能够帮助客户在训练阶段，能够快速的掌握集群的通信状态，及时的发现问题，并进行相关的一些调优。

同时在做大规模的分布式训练的时候，自动的并行策略对于性能有非常重要的影响，我们开发了自动并行策略的调优工作，能够使以前的并行策略的设置，从小时级提升到分钟级，大大提升了性能的发挥效率，并且其效果是好于普通专家设置的。

在稳定性层面，我们也开发了一个全面的自动容错机制。当集群规模大的时候，故障是不可避免的，这就需要去考虑如何去降低故障对于训练任务的影响。我们希望对硬件故障的监测做到全面的提升，当出现故障的时候，让任务能够快速的恢复、重启，并在全流程进行提升，从而让硬件故障导致的任务中断，从小时级缩短到分钟级，这能够极大的提升集群的资源利用率。

InfoQ：所以百舸的优势就在于更强的性能，以及更高的稳定性，同时在不断地业务实践中不断实现优化。那么针对算力限制的问题，百度是如何通过技术领先性去突破算力瓶颈的？

宋飞：第一点就是要提升这个算力的利用率。针对这一点，我们推出了 AIAK 加速库，在应用过程中，无论是训练场景还是推理场景，都能够把已有的芯片算力进行充分发挥。这其实也是一个系统的工程，在训练层面，从 I/O 的加速到算子库的建设，再到通信优化、显存优化，每个层面我们都要做到极致，这也是我们在产品里面提供的解决方案。

在推理层面，随着大模型的落地，算力需求会越来越大。对于推理角度算力利用率的优化，包含了从底层高性能的算子，到推理图的转换优化，也包括了对于请求动态，batch 调度的技术等等，通过对这些领域一系列手段的提升，从而提升算力利用效率，将它的性能充分发挥出来，简单来说，就是把已有的算力用好。

第二层面，为了解决算力瓶颈，各家企业都在去想办法引入更多元的算力供应。这就面临了一个问题：怎么把多元算力当成一个有机整体从而利用起来？针对这一点，我们推出了业界首发的多芯混合训练解决方案。第一步是把多家的芯片聚合起来，并对其进行合理组合，使其真正变可整体使用的集群。不同的芯片的特点也不一样，我们也要去做一些自适应策略的优化，从而让分布式训练的算法在多家芯片上真正运行起来。我们也要对各家的芯片进行算力层的抽象。这种抽象之后，可能对使用者来说，就不用再关心多元芯片的差异。

通过以上一系列的手段，我们在多芯混合训练层面也达到了比较好的效果，千卡的多芯混合训练的资源效能做到了 95%，在百卡能达到 97%。这种低损耗的表现，能够真正帮助客户把多芯能力充分的发挥出来。

InfoQ：第一是把已有的芯片能力发挥出来，第二是通过多芯混合自适应的能力去让其算力发挥到最大值，还有就是屏蔽硬件差异，让多元芯片能够协同去发挥更大的能量，这其实是一个效率优化的过程。那么针对客户侧的应用，在构建基础设施时，企业最关注的是哪些功能？

宋飞：企业在实施智算基础设施并进行 AI 产业的智能化转型时，通常会经历三个阶段：首先是迅速构建起集群；其次是结合自身业务需求，在集群中对原始想法进行训练和验证；如果验证无误，便进入第三阶段，即大规模进行线上部署，将技术投入生产并实际应用。

百度百舸致力于实现"低门槛"接入，除了平台提供的运维能力和稳定性等维度外，还需提供业界的最佳实践，确保客户在每个阶段遇到问题时都能获得相应的解决方案或建议。这也正是百度智能云持续在做的。

其次，是客户所关心的性价比问题。一方面，我们需要为客户提供合理的硬件选型方案。在这方面，百度凭借多年的积累，能够为不同客户、不同规模的需求提供最佳方案。另一方面，提升性能利用率是提高性价比的重要手段，这也是我们重点关注的方向。

实现 AI 普惠是一项系统性工程，它涉及到对客户业务的深刻理解，平台提供的最佳实践，以及在产品的核心基础指标上达到业界领先水平。

InfoQ：除了性能之外，低门槛、高性价比等平台特质也至关重要，那么百度智能云智算基础设施是如何通过咱们的平台能力以及工程化能力去解决这些需求的？可以结合真实的案例给我们分享一下吗？

宋飞：智算基础设施在客户侧的落地是一项系统工程，它要求我们在技术层面和实施方案上追求极致。我们针对核心客户关注点进行了深入工作，特别是在提高集群利用率方面取得了显著成果。例如，在通讯时间优化方面，我们通过计算与通信的重叠优化，成功将集群在分布式训练中的通信时间占比从 9%降低至 2%，显著提升了集群的利用率。

企业客户非常关注性价比，这不仅涉及算力层面，还包括存储层面。我们提供了多级存储解决方案，以适应 AI 任务训练的需求。在大量数据准备和实际训练中，并非所有数据都需要使用高性能存储。通过多级存储方案，企业可以在海量、低成本存储和高性能存储之间找到平衡。我们的产品矩阵包括对象存储 BOS、高性能存储 PFS 并行文件存储，以及缓存加速产品 RapidFS，能够满足性能和存储性价比的双重需求。

InfoQ：现在有一个论调，很多人都在说这个摩尔定律已经被打破了，全球的属于 AI 的产业革命正在到来，百度是如何看待这个趋势的？并且去应对这种产业革命的到来呢？

宋飞：首先，我们确实能够观察到，新一轮大模型的驱动正引领着产业变革的新浪潮。这场变革的大幕正在缓缓拉开。在这背后，技术的算力层面所支撑的规模定律，我们认为其当前仍然有效，并且预计在未来一段时间内还将持续发展。

百度也坚信这一点，并将持续坚持自主创新，在技术研发、生态建设和人才培养等方面加大投入。我们致力于持续推出业界领先的产品和解决方案。与合作伙伴携手，我们将加快创新的步伐，共同构建新的生产力，以真正推动产业的智能化变革。

点击链接收看本期节目：https://www.infoq.cn/video/4bBkYmuaP20lVa4U29kM

创作场景

大模型时代，智算基础设施将走向何方？丨对话 AI 原生《云智实验室》

以下为本期栏目精华内容：