算力是信息时代的新生产力,也是 AI 的三大要素之一。随着 ChatGPT 在全球范围内掀起 AI 大模型热潮,AI 算力需求也实现了大爆发。当前 AI 大模型的算力需求特点是什么?怎样才能降低算力的使用门槛?IT 基础设施如何应对大模型不断增长的算力需求?近日,InfoQ《极客有约》邀请到了浪潮信息 AI 应用架构师 Owen Zhu 博士,为大家分享 AI 大模型时代下的算力需求与挑战。
以下为访谈实录,完整视频参看:https://www.infoq.cn/video/axAUyTihpRTtlJBa20la
姜雨生:欢迎大家来到 InfoQ 极客有约,我是今天的特邀主持人,微软软件工程师姜雨生。本期直播,我们邀请到了浪潮信息 Owen Zhu 博士来给我们做分享。我们今天直播的主题是《AI 大模型时代下的算力需求与挑战》,首先请您给大家介绍一下浪潮信息这家公司。
Owen Zhu:非常荣幸可以在 InfoQ 这个平台上与雨生老师一起进行在线交流。首先,我想简要介绍一下浪潮信息。我们是一家历史悠久的公司,主要专注于现代技术领域,特别是在计算能力方面,提供了广泛的基础设施支持。我们可以自豪地说,我们是全球领先的 IT 基础设施提供商,涵盖了计算、存储和网络等各种领域,为互联网、金融、通信等各行各业提供产品、解决方案和服务。
随着 AI 的兴起,我们的 AI 服务器产品也处于全球领先地位。我个人负责人工智能、算法和应用领域的研究工作。在国内,每两台 AI 服务器中就有一台是由浪潮信息生产的,这也是我们的骄傲。
在算法方面,我们一直在努力开展各种工作,尤其是在大模型领域。大约两三年前,我们就开始关注大模型领域,因为这个领域对计算能力有着巨大的需求。两年前,我们发布了千亿级别的大模型“源 1.0",至今我们仍在不断拓展大模型和其他前沿 AI 技术领域的研究和工作。
“计算力就是生产力,智算力就是创新力”
姜雨生:算力是信息时代的新生产力,能分享下您对算力及其重要性的理解吗?它的价值主要体现在哪些方面?
Owen Zhu:从浪潮信息的角度来看,我们在很早之前就开始关注算力的重要性。我们自己定位为算力供应商,因此早早地就开始强调算力的重要性,提出了像“计算力就是生产力”这样的概念。
此外,我们与全球领先的产业研究院机构如国际数据公司 IDC、清华大学进行联合编制,发布了许多关于算力的评估报告,例如,此前发布的《2022-2023 全球计算力指数评估报告》。在宏观层面上,我们对算力与经济增长之间的关系进行了评估。一个有趣的数据是,我们引入了计算力指数,它用来量化评估每个国家的算力水平,范围从 0 到 100。最新评估结果显示,十五个样本国家的计算力指数平均每提高 1 点,国家的数字经济和 GDP 将分别增长 3.6‰和 1.7‰。这个数据在国内的很多报告中都被引用,说明越来越多的人,包括政府层面,认识到了算力的重要性。
进一步来看,在智能计算领域,我们也提出了一个新概念,即智算力就是创新力,旨在生产力的基础上进一步增强人工智能计算的重要性。具体来说,人工智能在各个领域的应用中都发挥了举足轻重的作用非常明显,包括大模型。此外,在 AI for Science 这些领域,人工智能正推动着科学研究,这表明算力在提供创新力和社会创新方面发挥着根本性的作用。现在热门的 AIGC,深刻反映了 AI 在创造力方面的能力体现,而这些能力都是在算力的支持下实现的。
此外,如果我们深入研究算力对整个 AI 发展的驱动作用,可以清楚地看到,它实际上是 AI 发展的核心支持和引擎。有很多例子可以证明这一点,包括算力从 2012 年以来的指数级增长。一个具体的例子是自动驾驶领域,这个领域已经取得了长足的发展。从最早只能提供辅助驾驶功能,到能够在高速公路上实现无人干预的自动驾驶,再到最近针对城市通勤的自动驾驶应用。浪潮信息服务非常多的汽车制造商和自动驾驶客户,他们对算力的需求也在逐步增加。在这些年里,我们还看到他们在 AI 算法方面的投入,特别是在模型训练方面,从技术进步的角度看,算力的需求可能增加了数十到数百倍。
总之,无论从宏观经济发展层面还是从微观应用场景和算法层面来看,算力都扮演着至关重要的角色。
姜雨生:算力是不是分很多的类别?从你的角度来说,算力能按哪些类别来区分呢?
Owen Zhu:实际上,当我们谈论算力时,如果要进行分类,首先需要明确两个相似但不同的概念,即计算和算力。在过去,我们更多地强调计算,如云计算、边缘计算、科学计算、AI 计算、量子计算,等等。计算领域有各种分类方法,通常根据供给方式或计算发生的位置来划分,例如云计算和边缘计算。而算力实际上是计算能力的一个简称,它是一种衡量指标,通常是量化的。更进一步,我们可以使用类似 flops(每秒浮点运算次数)或者整数算力(int)等具体数值来衡量算力。因为算力是一种衡量指标,目前通常的分类方法是将其分为通用算力和专用算力,或者称之为智能算力,即 AI 算力。
为什么要这样分类呢?这背后有一些历史渊源。在过去,CPU 通常是支持计算的主要处理器,因此我们将 CPU 提供的算力称为通用算力。在 AI 时代,我们更多地使用加速计算,也就是使用 GPU 或 AI 芯片,并且在算力的具体支持方面,我们可能会使用专门针对 AI 的数据格式,如 LP16、INT8、BF16、TF32 等。因此,在进行算力衡量时,我们将其区分为通用算力和智能算力。大致来说,当今我们谈论算力时,更多的是在讨论 AI 算力。
姜雨生:针对刚才您提到的这几个分类,我们国内现在在这几方面的发展现状如何?
Owen Zhu:这个问题实际上是一个相对宏观的问题。我们之前提到过的我们和国际数据公司 IDC 的评估报告,对各个国家在算力领域的投入进行评估和打分。总体来说,我国算力总规模全球第二,仅次于美国,年增长率近 30%。将目光再聚焦于当下最热议的生成式 AI 算力,其从 2022 年的 8.2 亿美元增长到 2026 年的 109.9 亿美元,市场占比(生成式 AI 计算占整体 AI 计算市场)更是从 4.2% 增长到 31.7% 。
姜雨生:有观众提问,自动驾驶系统哪部分对算力的需求最大?
Owen Zhu:当涉及到自动驾驶时,我们需要考虑到一些关键环节,其中最重要的一个环节是感知。
在自动驾驶中,感知是一个关键步骤。车辆上配备了多种传感器,如摄像头、雷达、激光雷达等,这些传感器收集到的数据需要进行处理,通常需要引入各种人工智能模型。对于雷达数据,我们可能需要使用基于雷达的 3D 目标检测或其他模型来进行感知。对于摄像头数据,我们可能需要使用基于图片或视频的 2D 或 3D 感知算法。在整个自动驾驶系统中,感知阶段通常是算力需求最大的阶段。这些计算通常在云端完成。在实际应用之前,自动驾驶模型通常需要大规模的训练。一些领先的自动驾驶企业,如特斯拉,拥有庞大的 GPU 和 AI 算力规模。此外,一些公司还在自研 AI 芯片和 AI 算力系统,这些芯片主要用于感知。
近年来,人们还在尝试将大型模型引入自动驾驶领域,实现端到端的模型,也就是将各个环节整合到一个模型中。这意味着传感器数据被输入到一个大型模型中,以进行决策控制,并指导车辆下一步的操作。这个决策控制阶段也需要大量的算力投入。
在自动驾驶领域,算力需求不仅限于感知阶段,还包括决策控制阶段,尤其是在引入深度学习算法后。这就是目前自动驾驶领域的大致情况。
“算力的投入与智能的涌现有直接关系”
姜雨生:在我刚参加工作的时候,AI 并不是一个热门话题,很少有人提到 AI 这个概念。大多数人当时更多地从事计算机相关的工作,专注于一些传统的服务和应用层面的工作。在 AI 的大型模型兴起之前,算力用在哪些方面呢?
Owen Zhu:这是一个很有趣的问题。虽然现在公众对算力的概念越来越熟悉,近年来也举办了越来越多的专门针对算力的活动,但实际上在此之前,算力的概念早已存在。从浪潮信息的角度来看,我们早在多年前就已经开始讨论算力。至于在 AI 大模型兴起之前,实际上有很多领域都在使用算力:
互联网服务:在互联网领域,算力的需求一直很高。例如,回顾到 2019 年,百度中标了春晚的红包活动,为了支持这一活动,他们准备了高达 10 万台服务器的算力。这显示了在互联网抢红包等活动中,需要大规模的算力支持。
在线购票和出行服务:在线购票、滴滴打车、美团外卖等服务都依赖于大量的算力来支持实时交易和路线规划。
科学计算:科学领域一直在使用算力来进行复杂的计算,如天气预报、工程仿真、分子工程模拟、材料仿真等。天气预报的准确性不断提高,台风和洪水的预测也得益于强大的算力。
总之,算力在许多不同领域都发挥着关键作用,早在 AI 大模型兴起之前就已经是一个重要的资源需求。
姜雨生:我们现在正处于一个非常有趣的时刻,OpenAI 推出了 ChatGPT,全球范围内引发了对 AI 大模型的热潮。许多公司都在全力以赴投入算力,现阶段算力需求发生了哪些变化?算力对于 AI 的发展有多大的影响?
Owen Zhu:我们必须承认算力在当前 AI 发展中的重要性是非常高的,这也是为什么人们争相获取算力的根本原因。我们可以展开讨论这个问题。之前我们一直提到深度学习的三驾马车:算力、算法和数据,它们共同推动了深度学习技术的进步。但随着大模型时代的到来,尽管这些要素仍然很重要,但算力的重要性更加凸显。
为什么这样说呢?因为我们现在逐渐认识到一个事实,那就是通用人工智能引入了一些重要的概念,如泛化和涌现。这些是非常核心的能力,但如何衡量它们呢?渐渐地,业界形成了一个共识,即算力的投入与智能的涌现有着直接关系。
这个观点为什么会出现呢?从理论分析的角度来看,大模型中有一个重要概念,称为"扩展性",即如何扩展大模型的能力。比如,如果我们要将一个模型的参数扩大 10 倍,需要训练一个 10 倍规模的模型,我们需要多少算力来支持这个过程?这就是所谓的"扩展性"问题。在这方面,OpenAI 和其他公司进行了大量研究,发现扩展模型的过程是近似线性的。这意味着,要扩大 10 倍的模型,需要 100 倍的算力投入。这使得算力成为一个重要的标尺,用来衡量模型的能力。因此,算力的投入越大,模型的能力也越强。
举个例子,GPT-3 拥有 1750 亿参数,训练时使用了 3000 亿的 token 数。而像 Llama 2 这样的新模型,虽然参数较少,只有 650 亿,但训练使用了 1.4 万亿的 token 数,实际上投入的算力更大。从评测指标上看,Llama 2 在某些方面超越了 GPT-3,这进一步证实了算力投入与模型能力的关系。
最近,有一些关于 GPT-4 的估测表明,它的算力投入可能是 GPT-3 的 68 倍,甚至更多。而谷歌即将发布的下一代模型 Gemini,被认为将投入超过 GPT-4 5 倍以上的算力。这显示出在大模型的算力投入方面,业界领先公司在成本上毫不吝啬。
姜雨生:有观众提问,在算力足够的情况下,模型能力可以无限的增强,带来无限可能吗?
Owen Zhu:业界对于这个问题尚无明确答案。然而,有一个观点是,当算力不再是限制时,数据将成为限制因素。这个观点在业界已经有一些人在讨论,即像 OpenAI 和其他互联网公司一样,他们正在大规模地进行模型训练,很快可能会耗尽互联网上的数据资源,这并非无稽之谈。
事实上,当我们自己进行数据处理时,我们会发现互联网上的文本数据的质量和数量是有限的。特别是对于中文互联网来说,由于相对封闭的特性,获取高质量的数据可能会受到一些限制。因此,数据的限制可能很快会成为一个瓶颈。因此,尽管我们拥有强大的算力,但并不意味着智能会无限增长。
然而,有很多解决方法,例如引入多模态数据。我们知道引入新的模态数据可以带入大量新信息,从而进一步提升模型的性能。因此,这个问题的解决方案可能是多种多样的,非常值得继续探讨。
“大模型时代的基础设施建设”
姜雨生:云服务提供商在算力方面可能存在垄断或半垄断的情况,这使得访问大型模型成为一种昂贵的资源。对于个人开发者来说,有些人可能确实用不到这种大型模型,而另一些人可能承受不起这些服务的高成本。有声音认为买不起算力,直接将一大部分开发者挡在了 AI 时代的大门外,您怎么看“买不起”这一现象?
Owen Zhu:今年以来,算力供应情况紧张,这涉及到多个层面的原因,不一一探讨,但与供应关系密切相关。解决买不起算力的问题,我们从基础设施和算力提供商的角度尝试各种方法。云服务可能是一种解决方案,即直接从公有云购买算力。
此外,我们提出了一个重要的概念和策略,即“智算中心”。其逻辑是,政府或类似公益机构作为主体购买和储备以 AI 算力为主的资源中心。这种方法的提供方向更侧重于社会经济效益和社会效益,而不仅仅是商业利润。通过建立智算中心,我们可以推动产业发展,例如国内模型的培训,以及改进社会效率和模型应用,从而提高生活质量和企业效率等方面的利益。因此,在解决买不起算力的问题方面,智算中心的建立有很大帮助。
多年来,我们一直在推动这些事情,并已经与许多地方政府建立了多个智算中心,如济南、南京、宿州等地,基于这样模式之上的模型已经帮助许多企业解决了各种问题,这也可以视为一种解决方案或策略。
姜雨生:对于企业而言,大模型时代基础设施建设面临两个比较大的困难:一是高额的成本,二是随着算力集群规模增大,稳定性越难做到,效率也很难提升。对于第二点,目前有哪些解决方案?
Owen Zhu:我们正在尝试解决这一问题,并与您之前提到的类似方向有些相似。实际上,我们可以从观察多家企业的现状入手,以解释这个情况。在过去,许多企业可能更倾向于使用公有云等云服务提供商的算力来满足 AI 需求,但是今年我们观察到了一些变化,即企业更倾向于选择高质量的算力,例如智算中心,或者自建基础设施。
这种变化有多个原因,其中之一是对算力的需求发生了重大变化。现在,训练 AI 大模型可能需要数百甚至上千块 GPU 卡。对于企业来说,购买如此大规模的算力可能成为挑战,因为即使是公有云,其资源分布在不同的数据中心,难以实现集中供给。此外,云服务商通常通过资源超售等方式提高利用率,从而降低成本,但对于 AI 算力,用户更希望充分利用资源,不希望资源被超售。
自建基础设施的成本可能相对较低,但也带来了一些新的挑战,如操作系统、驱动程序、环境配置、监控和调度等问题。为了解决这些问题,我们上月刚发布了一个大模型智算软件栈 OGAI,全称是 Open GenAI Infra,旨在为客户提供一套技术堆栈,通过多层次的软件解决方案来解决这些问题。这包括对智算中心的支持,以及指南和工具,帮助用户部署和配置 AI 基础设施。对于许多用户来说,特别是那些刚刚购买算力的用户,部署可能是一个挑战,因此我们提供了一个指南,以指导他们完成部署并避免一些常见问题。此外,我们还提供一些商业化的软件解决方案,用于大规模算力的调度和硬件兼容性等问题。
姜雨生:在大型 AI 模型时代,IT 服务领域的厂商正在积极探索新的可能性。展开来看,对于国内 IT 服务领域的厂商来说,大模型时代带来了一些机遇和挑战。我也很关心浪潮信息作为一家公司,是否在产品策略上发生了变化或者采取了一些创新举措。您提到了大数据平台,这确实是一个关键领域,许多公司都在不懈努力,旨在为客户提供更强大且易于使用的体验。我很想听听您的更多观点。
Owen Zhu:您谈到的关于基础设施和算力的问题,确实对 AI 行业产生了许多挑战和机遇。最近,我注意到业界开始聊到 AI 领域的人才,并强调了其重要性,可能超过了大型 AI 模型的重要性。
回到这个问题,我觉得有几个方面需要关注。首先,从市场的角度来看,当前算力仍然是一项短期内比较突出的问题,特别是在上半年,大家一直都在争抢算力资源。这种紧缺局面可能会一直持续到明年的 Q1 和 Q2。大模型对整个 AI 行业产生了革命性的影响,这是继 AlphaGo 之后的第二次重大变革。因此,算力短缺将继续存在。
第二,我们需要关注的趋势是多元异构计算的概念,尽管这听起来有点抽象。目前,主要的加速芯片是 Nvidia 的 GPU,但随着加速计算和异构计算在计算中变得越来越重要,更多的加速计算芯片和解决方案将涌现,包括英特尔的 Habana 和 AMD 的 MI 系列等针对 AI 的加速芯片。这将导致市场出现多元化的生态系统,这一趋势将逐渐凸显。因此,我们需要思考如何在这种情况下实现兼容性和融合,以确保各种芯片和产品能够无缝协作,提供给用户一个一致的接口。
第三,算力基建化将成为一个重要趋势,随着算力的不断增加,它将成为基础设施的一部分。政府、云服务提供商和科技公司等都在大规模投资和建设算力基础设施,将算力作为一种服务提供给外部。这将推动算力基建化技术的加速发展,以满足不同行业和应用领域的需求。
总之,我们需要在硬件、软件和算法等多个层面上积极应对这些趋势。在硬件层面,我们需要关注多元化的 AI 芯片接入。在软件和算法层面,我们需要投入更多的资源来研发和支持算法,以及解决用户在应用 AI 时可能遇到的问题。此外,构建生态系统也是一个关键战略,让不同领域的专业公司和行业解决方案提供商共同合作,以实现 AI 技术在各个领域的落地应用。这将有助于促进 AI 产业的发展和应用。
嘉宾介绍
特邀主持:
姜雨生,微软软件工程师,负责微软资讯业务与 GPT 集成,曾负责微软广告团队基础设施搭建与维护工作。
嘉宾:
Owen Zhu,浪潮信息 AI 应用架构师,中国科学技术大学博士。从事人工智能方向相关工作多年,当前主要负责大模型、AIGC 等前沿 AI 算法研发和 AI 应用落地研究工作。
评论