写点什么

AI 大模型时代下的算力需求与挑战

  • 2023-09-25
    北京
  • 本文字数:6918 字

    阅读完需:约 23 分钟

大小:3.72M时长:21:41
AI大模型时代下的算力需求与挑战

算力是信息时代的新生产力,也是 AI 的三大要素之一。随着 ChatGPT 在全球范围内掀起 AI 大模型热潮,AI 算力需求也实现了大爆发。当前 AI 大模型的算力需求特点是什么?怎样才能降低算力的使用门槛?IT 基础设施如何应对大模型不断增长的算力需求?近日,InfoQ《极客有约》邀请到了浪潮信息 AI 应用架构师 Owen Zhu 博士,为大家分享 AI 大模型时代下的算力需求与挑战。

 

以下为访谈实录,完整视频参看:https://www.infoq.cn/video/axAUyTihpRTtlJBa20la

 

姜雨生:欢迎大家来到 InfoQ 极客有约,我是今天的特邀主持人,微软软件工程师姜雨生。本期直播,我们邀请到了浪潮信息 Owen Zhu 博士来给我们做分享。我们今天直播的主题是《AI 大模型时代下的算力需求与挑战》,首先请您给大家介绍一下浪潮信息这家公司。

 

Owen Zhu:非常荣幸可以在 InfoQ 这个平台上与雨生老师一起进行在线交流。首先,我想简要介绍一下浪潮信息。我们是一家历史悠久的公司,主要专注于现代技术领域,特别是在计算能力方面,提供了广泛的基础设施支持。我们可以自豪地说,我们是全球领先的 IT 基础设施提供商,涵盖了计算、存储和网络等各种领域,为互联网、金融、通信等各行各业提供产品、解决方案和服务。

 

随着 AI 的兴起,我们的 AI 服务器产品也处于全球领先地位。我个人负责人工智能、算法和应用领域的研究工作。在国内,每两台 AI 服务器中就有一台是由浪潮信息生产的,这也是我们的骄傲。

 

在算法方面,我们一直在努力开展各种工作,尤其是在大模型领域。大约两三年前,我们就开始关注大模型领域,因为这个领域对计算能力有着巨大的需求。两年前,我们发布了千亿级别的大模型“源 1.0",至今我们仍在不断拓展大模型和其他前沿 AI 技术领域的研究和工作。

“计算力就是生产力,智算力就是创新力”

 

姜雨生:算力是信息时代的新生产力,能分享下您对算力及其重要性的理解吗?它的价值主要体现在哪些方面?

 

Owen Zhu:从浪潮信息的角度来看,我们在很早之前就开始关注算力的重要性。我们自己定位为算力供应商,因此早早地就开始强调算力的重要性,提出了像“计算力就是生产力”这样的概念。

 

此外,我们与全球领先的产业研究院机构如国际数据公司 IDC、清华大学进行联合编制,发布了许多关于算力的评估报告,例如,此前发布的《2022-2023 全球计算力指数评估报告》。在宏观层面上,我们对算力与经济增长之间的关系进行了评估。一个有趣的数据是,我们引入了计算力指数,它用来量化评估每个国家的算力水平,范围从 0 到 100。最新评估结果显示,十五个样本国家的计算力指数平均每提高 1 点,国家的数字经济和 GDP 将分别增长 3.6‰和 1.7‰。这个数据在国内的很多报告中都被引用,说明越来越多的人,包括政府层面,认识到了算力的重要性。

 

进一步来看,在智能计算领域,我们也提出了一个新概念,即智算力就是创新力,旨在生产力的基础上进一步增强人工智能计算的重要性。具体来说,人工智能在各个领域的应用中都发挥了举足轻重的作用非常明显,包括大模型。此外,在 AI for Science 这些领域,人工智能正推动着科学研究,这表明算力在提供创新力和社会创新方面发挥着根本性的作用。现在热门的 AIGC,深刻反映了 AI 在创造力方面的能力体现,而这些能力都是在算力的支持下实现的。

 

此外,如果我们深入研究算力对整个 AI 发展的驱动作用,可以清楚地看到,它实际上是 AI 发展的核心支持和引擎。有很多例子可以证明这一点,包括算力从 2012 年以来的指数级增长。一个具体的例子是自动驾驶领域,这个领域已经取得了长足的发展。从最早只能提供辅助驾驶功能,到能够在高速公路上实现无人干预的自动驾驶,再到最近针对城市通勤的自动驾驶应用。浪潮信息服务非常多的汽车制造商和自动驾驶客户,他们对算力的需求也在逐步增加。在这些年里,我们还看到他们在 AI 算法方面的投入,特别是在模型训练方面,从技术进步的角度看,算力的需求可能增加了数十到数百倍。

 

总之,无论从宏观经济发展层面还是从微观应用场景和算法层面来看,算力都扮演着至关重要的角色。

 

姜雨生:算力是不是分很多的类别?从你的角度来说,算力能按哪些类别来区分呢?

 

Owen Zhu:实际上,当我们谈论算力时,如果要进行分类,首先需要明确两个相似但不同的概念,即计算和算力。在过去,我们更多地强调计算,如云计算、边缘计算、科学计算、AI 计算、量子计算,等等。计算领域有各种分类方法,通常根据供给方式或计算发生的位置来划分,例如云计算和边缘计算。而算力实际上是计算能力的一个简称,它是一种衡量指标,通常是量化的。更进一步,我们可以使用类似 flops(每秒浮点运算次数)或者整数算力(int)等具体数值来衡量算力。因为算力是一种衡量指标,目前通常的分类方法是将其分为通用算力专用算力,或者称之为智能算力,即 AI 算力。

 

为什么要这样分类呢?这背后有一些历史渊源。在过去,CPU 通常是支持计算的主要处理器,因此我们将 CPU 提供的算力称为通用算力。在 AI 时代,我们更多地使用加速计算,也就是使用 GPU 或 AI 芯片,并且在算力的具体支持方面,我们可能会使用专门针对 AI 的数据格式,如 LP16、INT8、BF16、TF32 等。因此,在进行算力衡量时,我们将其区分为通用算力和智能算力。大致来说,当今我们谈论算力时,更多的是在讨论 AI 算力。

 

姜雨生:针对刚才您提到的这几个分类,我们国内现在在这几方面的发展现状如何?

 

Owen Zhu:这个问题实际上是一个相对宏观的问题。我们之前提到过的我们和国际数据公司 IDC 的评估报告,对各个国家在算力领域的投入进行评估和打分。总体来说,我国算力总规模全球第二,仅次于美国,年增长率近 30%。将目光再聚焦于当下最热议的生成式 AI 算力,其从 2022 年的 8.2 亿美元增长到 2026 年的 109.9 亿美元,市场占比(生成式 AI 计算占整体 AI 计算市场)更是从 4.2% 增长到 31.7% 。

 

姜雨生:有观众提问,自动驾驶系统哪部分对算力的需求最大?

 

Owen Zhu:当涉及到自动驾驶时,我们需要考虑到一些关键环节,其中最重要的一个环节是感知。

 

在自动驾驶中,感知是一个关键步骤。车辆上配备了多种传感器,如摄像头、雷达、激光雷达等,这些传感器收集到的数据需要进行处理,通常需要引入各种人工智能模型。对于雷达数据,我们可能需要使用基于雷达的 3D 目标检测或其他模型来进行感知。对于摄像头数据,我们可能需要使用基于图片或视频的 2D 或 3D 感知算法。在整个自动驾驶系统中,感知阶段通常是算力需求最大的阶段。这些计算通常在云端完成。在实际应用之前,自动驾驶模型通常需要大规模的训练。一些领先的自动驾驶企业,如特斯拉,拥有庞大的 GPU 和 AI 算力规模。此外,一些公司还在自研 AI 芯片和 AI 算力系统,这些芯片主要用于感知。

 

近年来,人们还在尝试将大型模型引入自动驾驶领域,实现端到端的模型,也就是将各个环节整合到一个模型中。这意味着传感器数据被输入到一个大型模型中,以进行决策控制,并指导车辆下一步的操作。这个决策控制阶段也需要大量的算力投入。

 

在自动驾驶领域,算力需求不仅限于感知阶段,还包括决策控制阶段,尤其是在引入深度学习算法后。这就是目前自动驾驶领域的大致情况。

“算力的投入与智能的涌现有直接关系”

 

姜雨生:在我刚参加工作的时候,AI 并不是一个热门话题,很少有人提到 AI 这个概念。大多数人当时更多地从事计算机相关的工作,专注于一些传统的服务和应用层面的工作。在 AI 的大型模型兴起之前,算力用在哪些方面呢?

 

Owen Zhu:这是一个很有趣的问题。虽然现在公众对算力的概念越来越熟悉,近年来也举办了越来越多的专门针对算力的活动,但实际上在此之前,算力的概念早已存在。从浪潮信息的角度来看,我们早在多年前就已经开始讨论算力。至于在 AI 大模型兴起之前,实际上有很多领域都在使用算力:

 

  1. 互联网服务:在互联网领域,算力的需求一直很高。例如,回顾到 2019 年,百度中标了春晚的红包活动,为了支持这一活动,他们准备了高达 10 万台服务器的算力。这显示了在互联网抢红包等活动中,需要大规模的算力支持。

  2. 在线购票和出行服务:在线购票、滴滴打车、美团外卖等服务都依赖于大量的算力来支持实时交易和路线规划。

  3. 科学计算:科学领域一直在使用算力来进行复杂的计算,如天气预报、工程仿真、分子工程模拟、材料仿真等。天气预报的准确性不断提高,台风和洪水的预测也得益于强大的算力。

 

总之,算力在许多不同领域都发挥着关键作用,早在 AI 大模型兴起之前就已经是一个重要的资源需求。

 

姜雨生:我们现在正处于一个非常有趣的时刻,OpenAI 推出了 ChatGPT,全球范围内引发了对 AI 大模型的热潮。许多公司都在全力以赴投入算力,现阶段算力需求发生了哪些变化?算力对于 AI 的发展有多大的影响?

 

Owen Zhu:我们必须承认算力在当前 AI 发展中的重要性是非常高的,这也是为什么人们争相获取算力的根本原因。我们可以展开讨论这个问题。之前我们一直提到深度学习的三驾马车:算力、算法和数据,它们共同推动了深度学习技术的进步。但随着大模型时代的到来,尽管这些要素仍然很重要,但算力的重要性更加凸显。

 

为什么这样说呢?因为我们现在逐渐认识到一个事实,那就是通用人工智能引入了一些重要的概念,如泛化和涌现。这些是非常核心的能力,但如何衡量它们呢?渐渐地,业界形成了一个共识,即算力的投入与智能的涌现有着直接关系

 

这个观点为什么会出现呢?从理论分析的角度来看,大模型中有一个重要概念,称为"扩展性",即如何扩展大模型的能力。比如,如果我们要将一个模型的参数扩大 10 倍,需要训练一个 10 倍规模的模型,我们需要多少算力来支持这个过程?这就是所谓的"扩展性"问题。在这方面,OpenAI 和其他公司进行了大量研究,发现扩展模型的过程是近似线性的。这意味着,要扩大 10 倍的模型,需要 100 倍的算力投入。这使得算力成为一个重要的标尺,用来衡量模型的能力。因此,算力的投入越大,模型的能力也越强。

 

举个例子,GPT-3 拥有 1750 亿参数,训练时使用了 3000 亿的 token 数。而像 Llama 2 这样的新模型,虽然参数较少,只有 650 亿,但训练使用了 1.4 万亿的 token 数,实际上投入的算力更大。从评测指标上看,Llama 2 在某些方面超越了 GPT-3,这进一步证实了算力投入与模型能力的关系。

 

最近,有一些关于 GPT-4 的估测表明,它的算力投入可能是 GPT-3 的 68 倍,甚至更多。而谷歌即将发布的下一代模型 Gemini,被认为将投入超过 GPT-4 5 倍以上的算力。这显示出在大模型的算力投入方面,业界领先公司在成本上毫不吝啬。

 

姜雨生:有观众提问,在算力足够的情况下,模型能力可以无限的增强,带来无限可能吗?

 

Owen Zhu:业界对于这个问题尚无明确答案。然而,有一个观点是,当算力不再是限制时,数据将成为限制因素。这个观点在业界已经有一些人在讨论,即像 OpenAI 和其他互联网公司一样,他们正在大规模地进行模型训练,很快可能会耗尽互联网上的数据资源,这并非无稽之谈。

 

事实上,当我们自己进行数据处理时,我们会发现互联网上的文本数据的质量和数量是有限的。特别是对于中文互联网来说,由于相对封闭的特性,获取高质量的数据可能会受到一些限制。因此,数据的限制可能很快会成为一个瓶颈。因此,尽管我们拥有强大的算力,但并不意味着智能会无限增长。

 

然而,有很多解决方法,例如引入多模态数据。我们知道引入新的模态数据可以带入大量新信息,从而进一步提升模型的性能。因此,这个问题的解决方案可能是多种多样的,非常值得继续探讨。

“大模型时代的基础设施建设”

 

姜雨生:云服务提供商在算力方面可能存在垄断或半垄断的情况,这使得访问大型模型成为一种昂贵的资源。对于个人开发者来说,有些人可能确实用不到这种大型模型,而另一些人可能承受不起这些服务的高成本。有声音认为买不起算力,直接将一大部分开发者挡在了 AI 时代的大门外,您怎么看“买不起”这一现象?

 

Owen Zhu:今年以来,算力供应情况紧张,这涉及到多个层面的原因,不一一探讨,但与供应关系密切相关。解决买不起算力的问题,我们从基础设施和算力提供商的角度尝试各种方法。云服务可能是一种解决方案,即直接从公有云购买算力。

 

此外,我们提出了一个重要的概念和策略,即“智算中心”。其逻辑是,政府或类似公益机构作为主体购买和储备以 AI 算力为主的资源中心。这种方法的提供方向更侧重于社会经济效益和社会效益,而不仅仅是商业利润。通过建立智算中心,我们可以推动产业发展,例如国内模型的培训,以及改进社会效率和模型应用,从而提高生活质量和企业效率等方面的利益。因此,在解决买不起算力的问题方面,智算中心的建立有很大帮助。

 

多年来,我们一直在推动这些事情,并已经与许多地方政府建立了多个智算中心,如济南、南京、宿州等地,基于这样模式之上的模型已经帮助许多企业解决了各种问题,这也可以视为一种解决方案或策略。

 

姜雨生:对于企业而言,大模型时代基础设施建设面临两个比较大的困难:一是高额的成本,二是随着算力集群规模增大,稳定性越难做到,效率也很难提升。对于第二点,目前有哪些解决方案?

 

Owen Zhu:我们正在尝试解决这一问题,并与您之前提到的类似方向有些相似。实际上,我们可以从观察多家企业的现状入手,以解释这个情况。在过去,许多企业可能更倾向于使用公有云等云服务提供商的算力来满足 AI 需求,但是今年我们观察到了一些变化,即企业更倾向于选择高质量的算力,例如智算中心,或者自建基础设施。

 

这种变化有多个原因,其中之一是对算力的需求发生了重大变化。现在,训练 AI 大模型可能需要数百甚至上千块 GPU 卡。对于企业来说,购买如此大规模的算力可能成为挑战,因为即使是公有云,其资源分布在不同的数据中心,难以实现集中供给。此外,云服务商通常通过资源超售等方式提高利用率,从而降低成本,但对于 AI 算力,用户更希望充分利用资源,不希望资源被超售。

 

自建基础设施的成本可能相对较低,但也带来了一些新的挑战,如操作系统、驱动程序、环境配置、监控和调度等问题。为了解决这些问题,我们上月刚发布了一个大模型智算软件栈 OGAI,全称是 Open GenAI Infra,旨在为客户提供一套技术堆栈,通过多层次的软件解决方案来解决这些问题。这包括对智算中心的支持,以及指南和工具,帮助用户部署和配置 AI 基础设施。对于许多用户来说,特别是那些刚刚购买算力的用户,部署可能是一个挑战,因此我们提供了一个指南,以指导他们完成部署并避免一些常见问题。此外,我们还提供一些商业化的软件解决方案,用于大规模算力的调度和硬件兼容性等问题。

 

姜雨生:在大型 AI 模型时代,IT 服务领域的厂商正在积极探索新的可能性。展开来看,对于国内 IT 服务领域的厂商来说,大模型时代带来了一些机遇和挑战。我也很关心浪潮信息作为一家公司,是否在产品策略上发生了变化或者采取了一些创新举措。您提到了大数据平台,这确实是一个关键领域,许多公司都在不懈努力,旨在为客户提供更强大且易于使用的体验。我很想听听您的更多观点。

 

Owen Zhu:您谈到的关于基础设施和算力的问题,确实对 AI 行业产生了许多挑战和机遇。最近,我注意到业界开始聊到 AI 领域的人才,并强调了其重要性,可能超过了大型 AI 模型的重要性。

 

回到这个问题,我觉得有几个方面需要关注。首先,从市场的角度来看,当前算力仍然是一项短期内比较突出的问题,特别是在上半年,大家一直都在争抢算力资源。这种紧缺局面可能会一直持续到明年的 Q1 和 Q2。大模型对整个 AI 行业产生了革命性的影响,这是继 AlphaGo 之后的第二次重大变革。因此,算力短缺将继续存在。

 

第二,我们需要关注的趋势是多元异构计算的概念,尽管这听起来有点抽象。目前,主要的加速芯片是 Nvidia 的 GPU,但随着加速计算和异构计算在计算中变得越来越重要,更多的加速计算芯片和解决方案将涌现,包括英特尔的 Habana 和 AMD 的 MI 系列等针对 AI 的加速芯片。这将导致市场出现多元化的生态系统,这一趋势将逐渐凸显。因此,我们需要思考如何在这种情况下实现兼容性和融合,以确保各种芯片和产品能够无缝协作,提供给用户一个一致的接口。

 

第三,算力基建化将成为一个重要趋势,随着算力的不断增加,它将成为基础设施的一部分。政府、云服务提供商和科技公司等都在大规模投资和建设算力基础设施,将算力作为一种服务提供给外部。这将推动算力基建化技术的加速发展,以满足不同行业和应用领域的需求。

 

总之,我们需要在硬件、软件和算法等多个层面上积极应对这些趋势。在硬件层面,我们需要关注多元化的 AI 芯片接入。在软件和算法层面,我们需要投入更多的资源来研发和支持算法,以及解决用户在应用 AI 时可能遇到的问题。此外,构建生态系统也是一个关键战略,让不同领域的专业公司和行业解决方案提供商共同合作,以实现 AI 技术在各个领域的落地应用。这将有助于促进 AI 产业的发展和应用。

嘉宾介绍


特邀主持:


姜雨生,微软软件工程师,负责微软资讯业务与 GPT 集成,曾负责微软广告团队基础设施搭建与维护工作。


嘉宾:


Owen Zhu,浪潮信息 AI 应用架构师,中国科学技术大学博士。从事人工智能方向相关工作多年,当前主要负责大模型、AIGC 等前沿 AI 算法研发和 AI 应用落地研究工作。

2023-09-25 15:295604

评论

发布
暂无评论
发现更多内容

Flutter性能监控实践

贝壳大前端技术团队

flutter 性能 监控 优化

Android Studio安装及问题解决,一文搞懂JVM架构

android 程序员 移动开发

Android Tab简介,android工程师面试题目

android 程序员 移动开发

Android NDK之旅——图片高斯模糊,30岁以后搞Android已经没有前途

android 程序员 移动开发

Android OKHttp 可能你从来没用过的拦截器 【实用推荐】

android 程序员 移动开发

Android PinnedHeaderListView 详解,flutter技术解析与实战

android 程序员 移动开发

Android Studio安装更新终极解决方式,android开发从入门到精通第2版

android 程序员 移动开发

Android Studio真机 设置 和 错误排查,安卓面试题最新2020

android 程序员 移动开发

Android R 新特性变化,三级缓存框架问题你都了解了吗

android 程序员 移动开发

Android Studio 3,android通知栏自响应事件

android 程序员 移动开发

android RoundedBitmapDrawable最简单方式实现圆角,事件分发机制流程图

android 移动开发

iOS开发-百度一面总结

iOSer

ios iOS面试 ios开发 百度面试

Android Studio 4,移动开发平台

android 程序员 移动开发

2021年11月墨天轮国产数据库排行榜:openGauss闯入前三,Kingbase流行度与日俱增,TDengine厚积薄发

墨天轮

opengauss TiDB oceanbase 国产数据库

计算机网络小知识集锦 Ⅰ(厕所读物系列)

Regan Yue

计算机网络 11月日更 厕所读物

Android RecyclerView的简单使用,我的阿里手淘面试经历分享

android 程序员 移动开发

Android Studio上Kotlin的入门,一次关于JVM的面试经历

android 程序员 移动开发

Android Studio项目用Git上传至码云(OSChina),android开发基础有哪些

android 程序员 移动开发

会声会影VS剪映?免费虽好,但花钱的快乐你想象不到!

懒得勤快

耗时两个月,我终于把牛客网最火的Java面试题整理成册了,在Github标星60K

Sakura

Java 程序员 架构 面试 后端

Android Retrofit 2,flutter游戏源代码

android 程序员 移动开发

rabbitmq的死信队列

小鲍侃java

11月日更

Android Studio 模拟器卡慢、占内存解决方法,35岁技术人如何转型做管理

android 程序员 移动开发

Android NDK 开发之 CMake 必知必会,后台开发Android岗

android 程序员 移动开发

企业很难招到合适的员工,怎么办?

低代码小观

招聘 企业管理 企业招聘 招聘系统 招聘管理系统

Android Studio项目用Git上传至码云(OSChina)(1),flutter面试题

android 程序员 移动开发

Android OOM:内存管理分析和内存泄露原因总结,网易架构师深入讲解Android开发

android 程序员 移动开发

《设计模式就该这样学》之使用策略模式重构电商折扣和支付场景

Java高级开发

程序员 设计模式 java

Android Studio 4(1),Android面试超详细知识点

android 程序员 移动开发

读完这些“Java 技术栈”,拿下阿里 Offer 没问题

Java高级开发

java

Android UI - 实现广告Banner轮播效果(1),Android进阶

android 程序员 移动开发

AI大模型时代下的算力需求与挑战_生成式 AI_凌敏_InfoQ精选文章