随着人工智能技术的飞速发展,AI 技术正以前所未有的速度渗透到各行各业,从 AI Phone、AI PC,到日常的智能家居,到复杂的工业自动化,再到前沿的科学研究,AI 的应用正不断拓宽我们的想象边界。与之相对应,对于算力的需求也在不断地激增,我们正处在一个算力成本高企制约 AI 技术演进和应用繁荣的时期,如何有效评估智算中心的有效算力、降低单位有效算力成本,已成为行业发展的关键。
在这样的大背景下,本次 AICon 大会特别邀请到了英博数科的 CTO 李少鹏老师到现场进行 Keynote 分享,李少鹏老师在智能算力服务领域有着丰富的经验和深刻的见解,特别是在大模型算力集群部署、调优与商业化等方面有着独到的洞察。分享结束后,我们结合李少鹏老师的 Keynote 演讲内容,对李少鹏老师做了一次深度的访谈,期待通过访谈挖掘英博数科背后的技术底色以及面向 AI 大航海时代的远见卓识,以下为访谈实录。
以下是视频采访的全部内容,为方便读者查看,视频下方也附上了访谈文字内容纪要。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
InfoQ:您在分享中反复提到未来大模型的算力需求会发生显著变化,面对这些可能的变化,企业应该如何设计算力集群以保持高度的可扩展性和灵活性?
李少鹏:目前的趋势是,基座模型和通用大模型的需求正逐步从千卡规模向万卡甚至十万卡转移,这是发展的必然趋势。只要 Scaling Law(尺度定律)它一直有效,算力集群的规模在竞争压力的影响下就会不断去扩大,因为只有拥有更大规模的算力集群,这些基座模型才能跟其他基座模型的快速迭代竞争中取得竞争优势。从算力服务供应方的角度来看,我们将紧跟这一趋势。我们的集群建设和方案也在逐步从千卡向万卡规模迁移。在建设集群过程中,我们需要考虑机房方案的选择、机房选址、建设规划、电力规划以及整体集群规划,以适应从千卡到万卡规模的转型需求。我们也在算力实验室中探索超大规模集群建设和运维所需的新技术和最优方案。
InfoQ:除了算力集群规模的变化,垂直大模型训练算力的使用需求也在发生变化。在您看来,特定行业的垂直大模型在开发和部署过程中,应该如何确保模型的泛化能力和适应性?
李少鹏:垂直行业的大模型主要服务于特定行业,随着大模型技术的成熟,它们已达到商业闭环的临界点。许多垂直行业应用的用户愿意为这些服务支付较高的费用,这推动了垂直行业大模型的竞争。在竞争中,我们需要加快迭代速度,需要更大、更全面的数据集,快速迭代算法,以获得竞争优势。一旦获得竞争优势,客户群体就能快速增长,形成正向循环,可能孕育出未来的行业巨头。在这个竞争激烈的领域,领先者正在积极探索算力使用方式,从物理位置、算力集群卡的组成、硬件适配方式到卡的使用方式。英博云专注于提供高效益、多样化的 GPU 智算产品及服务,我们在积极参与,帮助这些企业提升内部算力使用效率。
InfoQ:生成式 AI 商业化正在加速,推理需求也在增长。您认为我们应如何平衡训练和推理之间的算力需求?
李少鹏:训练和推理虽然都基于 GPU 算力,但两者差异显著。在训练侧,如果是大规模的通用基座模型训练,需要一个单一物理空间内的固定规模集群,因为训练所需的资源相对稳定。而中长尾应用侧的客户进行的训练是不稳定的,需要弹性支持。在推理侧,无论是通用大模型还是行业应用大模型,需求有很大的类似之处,主要区别在于模型大小,这决定了选择的卡和弹性方式。
InfoQ:全球不同地区对 AI 商业化应用的接受程度和监管不同,这对整个算力市场有何影响?企业应如何应对?
李少鹏:现在全球大模型甚至是算力市场,在中国国内和海外其实是完全不一样的生态环境。在国内我们可以在推理和训练过程中,相对自由地去使用我们想用的各种类型的卡。在海外的话,事实上它需要去遵循统一的规则。比如说消费级的显卡在海外是不能用于商用的,所以这是一个显著的差异。我们的企业如果是做面向出海业务的话,就需要去提前针对这些问题做好准备。还有一些就是数据进出相关的法律问题,也是企业出海过程中必须提前做好预案的。
InfoQ:结合您在 Keynote 分享的内容,算力成本高一直是 AI 行业的痛点。英博数科有哪些解决方案?背后的技术和团队支持是什么?
李少鹏:这是一个复杂问题。我们接触的用户都明确表示,算力成本高导致基于大模型的应用难以推广。因此,我们坚定了目标,即提供高效益、多样化的算力。这涉及政策、硬件、软件和专家支持等多方面因素。因此我们在做这件事情之前,首先是根据我们以往的算力集群建设过程和算力服务过程中获得的经验,去建立了一个指标。这个指标我们做出来的时候,我个人是非常满意的,因为它在数学上其实很漂亮,它能够达到的是说这个指标公式中的这些变量跟最终指标是一个完全充分必要的条件。也就是说,只要那五个变量能够做好,就一定能够提供优质高效益、多样化的算力。反过来,如果我五个指标中的某一项出了严重的问题,我就一定无法提供高效益、多样化的算力。最终这个指标既成为我们的工作努力方向,也成为了用户选择算力服务的参考标准。
InfoQ:能否进一步介绍单位有效算力成本的概念?灵感来源是什么?它如何帮助企业优化算力资源?
李少鹏:我们提供的算力,其实不是单纯的装机算力。装机算力只是从我们供应方的角度来看,我们给了用户多少资源,但并没有考虑到用户实际能用上多少。所以,我们真正交易的,应该是用户实际能接受和使用的算力,也就是有效算力。那么,有效算力怎么定义呢?简单来说,就是装机算力乘以服务器的可用率,这个可用率跟我们的运维服务和软硬件稳定性有很大关系。然后,再乘以服务器的利用率,这跟我们的调度能力有关。最后,还要乘以模型的利用率,这个跟硬件的适配性和我们选择的推理训练框架、参数配置有关。
这四个因素结合起来,才是用户真正能用的有效算力。单位有效算力成本,就是一段时间内我们供应方的总成本,包括设备折旧、电力和运维成本,除以这段时间内用户获得的有效算力。这个指标,可以作为我们和用户评价算力服务质量的一个标准。
InfoQ:除了成本问题,您认为企业实现 AI 产业革命还面临哪些挑战?
李少鹏:AI 的产业革命是大家期待已久的事情,我们都希望借助大模型的浪潮,将人类带入一个全新的人工智能时代。这不仅是所有从业者,也是用户所期待的。
对于参与这场革命的企业来说,挑战是巨大的。首先,企业需要根据自身的技术资源和其他相关资源,决定在产业链的哪个环节发力。是开发基础模型,还是应用行业模型?是构建工具链,还是提供算力服务,或者是从事底层硬件开发?企业需要选择一个明确的方向,这是第一步。
第二步,确定方向后,企业需要明确成功的标准是什么。这对于新兴行业来说很容易被忽视。因为新兴领域看起来很有前景,大家都急于投身其中,却没有系统性地思考如何衡量成功。所以,我们需要找到一个或几个量化的指标,来评价我们的工作是否做得好。
第三点是,根据这些指标,找出影响它们的因素,并找到完整的因素组合。这样我们就知道应该投入多少力量去优化每个因素,并与竞争对手进行比较,时刻了解自己的差距和优势在哪里,及时调整资源投入的方向。最终,通过完善这些因素,我们可以提高指标,从而把事情做好。
总的来说,大家需要保持清晰的思路和逻辑,不要被行业的热潮或短暂的低谷打乱企业的整体发展思路。
InfoQ:未来 3~5 年,您认为 AI 的发展趋势如何,尤其在算力和算法方向?
李少鹏:尽管行业有波动,但基于大模型的 AI 浪潮仍处于早期。从今年下半年开始,一些企业已开始享受大模型技术的红利。基于大模型技术的 AI 浪潮将深刻影响几乎所有行业,发展前景巨大。我们将在这一赛道上持续投入,建立长远指标,围绕指标做长期努力。我个人的看法是,尽管 AI 行业目前有些起伏,但这轮以大模型为核心的 AI 浪潮其实还处于非常初期的阶段。过去两年,我们主要见证了基础技术的快速迭代和成熟,但这些技术还没有真正深入到各个具体的行业应用中。
不过,从今年下半年开始,我们注意到,像文生视频这样的企业已经开始享受到大模型技术带来的实实在在的好处,它们已经开始形成商业闭环。这让我们看到了更广泛的行业都有可能像文生视频一样,逐渐步入快速发展的轨道。基于大模型技术的 AI 浪潮将会深刻影响几乎所有行业,对我们的工作、生活、学习、娱乐等各个方面产生深远的影响。因此,我认为它的发展前景是无法估量的巨大。我也为自己能够在早期就投身于这个领域感到庆幸。
因此,我们将持续在这一领域进行长期的投入和耕耘,不会以短期目标作为衡量我们工作的标准。我们希望建立一个长远的指标,并围绕这个指标持续努力。
InfoQ:2025 年英博数科有哪些规划?能否透露一些信息?
李少鹏:我们对未来的发展方向非常明确,将长期专注于三件事。首先,我们将继续发挥我们的优势,即智算中心的建设和运维服务。我们是国内最早投入大量资金和技术力量建设智算中心的公司之一,积累了丰富的经验。鉴于这个领域的技术发展迅速,不断有新的硬件设备和方案出现,我们将紧跟技术发展的步伐,确保在智算中心建设方面保持技术和经验上的领先。
其次,我们将深入发展弹性 GPU 容器服务。我们认为,未来算力需求的增长将由中长尾的行业应用公司推动,包括许多新创公司和传统的软件及互联网公司。这些公司的需求通常是百卡到几百卡规模,具有波动性。我们认为,采用容器服务,并结合预定义的场景镜像和专家团队支持,是服务这些用户的最佳方式,可以最大化他们使用算力的效益。我们相信这个市场空间巨大,是我们未来将长期投入和发展的方向。
最后,是我们的算力实验室。算力实验室主要负责对前沿硬件设备技术和大模型工具链进行测评分析和对比研究。我们将利用这些研究成果来增强智算中心建设和 GPU 容器服务的技术能力,快速适应客户的最新需求,这是我们的发展方向。
评论