写点什么

阿里云刘伟光:云之于 AI,绝不仅仅是算力供应

  • 2024-09-20
    北京
  • 本文字数:6131 字

    阅读完需:约 20 分钟

大小:3.07M时长:17:51
阿里云刘伟光:云之于AI,绝不仅仅是算力供应

编者按:本文是阿里云智能集团资深副总裁、公共云事业部总裁刘伟光在 9 月 19 日开幕的 2024 云栖大会上的演讲实录。在题为《加速 AI 原生时代》的演讲中,刘伟光分享了他对大模型、云和 AI 关系以及 AI 原生架构的思考。这里面有很多他基于技术前沿和市场实践而总结出的洞察,角度新颖,指向性强。


以下是演讲实录:


在开启今天的分享之前,先讲一个花絮。


我第一次登上云栖大会讲台是在 7 年前,也就是 2017 年 10 月 11 号,也是在这个会场。


7 年前我讲的话题是云的分布式架构、分布式中间件、分布式数据库、容器化,微服务改造,那时候这些想法还只是一种构想和畅想。7 年后,这些技术已经成为我们正在不断实践的标准。


当年,我记得翻看 PPT 时看到一些对 AI 的描述,就像很远方的一点星光。今天,AI 时代的发展就像一个正在照亮我们前行的明灯,让我们一起拥抱这个崭新的 AI 原生时代。


1. 大语言模型的爆发是过去所有技术的继承和优化

今天随着大语言模型在全球的爆发和应用,其实我们要思考一个问题,大语言模型不是平地起高楼的完全新兴事物。今天它是在过去算力不断迭代、数据量的不断扩充的基础上,不断优化和迭代的一种技术产物。


ChatGPT 发布在 2022 年的 11 月,大家想如果发布在 2012 年的话,那仅仅就是一份 paper。因为那个时代 GPU 的算力,包括数据的能力,数据容量都不足以支撑大语言模型训练。应该说,大语言模型的爆发是过去所有技术的继承和优化。


今天,我们的交互模式是人和人的交互,人和数字世界的交互,在未来通过大语言模型的赋能,包括长文本这些新的技术不断演进,我们有理由相信今天正在以菜单、按键打交道的这些终端设备、物理设备,将以对话、自然交互的模式跟人类交流。


我们看到今天的 AI 爆发不仅仅在数字化的虚拟世界,更多是诞生在数字化世界叠加对物理世界的优化甚至重塑。


2. 四个“确定”不等式

未来,AI 会带来什么样的变化?我们通过跟各种客户的合作实践,总结出了四个不等式,代表了我们对 AI 的未来非常笃定的方向。

第一,数据的不等式。

仅仅在去年,AI 产生的数据就已经大大超过了过去几十年来通过计算机产生的数据。Gartner 预测到 2030 年 AI 生成的合成数据将远超过人类过去生成数据的总和。AI 在过去一年所生成的图像已经超过了过去 150 年人类拍摄的所有照片的数量,未来更多的数据将由 AI 产生,这是一个非常确定的趋势。

第二,算法的不等式。

在大语言模型当中有一个重要的分支,就是 Coding 大模型,今年阿里云已经上线了第一个通义灵码员工,帮我们在编写代码、校验代码、优化代码。今天这些代码的采纳率已经接近 30%,跟客户的实际使用率非常相似。我们非常有理由相信在未来 1-3 年,整个 Coding 大模型生成的高质量代码将超过程序员所编写的代码。我们这一代人很可能是最后一代大规模编写程序的技术工程师。

第三,应用的不等式。

今天无论是 App Store,还是各种应用市场,正在诞生很多全新嵌入 AIGC 能力的 AI native application,加速度非常快。在未来,会有更多的公司去开发新兴的 AI 原生应用,这些应用将完全采用新的大模型能力,基于 GPU 推理集群上进行开发。同时,老的应用也会嵌入更多的智能体,提升整个智能化体验。未来所有的应用程序都可能被 AI 所重写,或优化。

第四,交互的不等式。

今天有手机和汽车的融合,也有汽车和机器人的融合,汽车在中间扮演了一个非常重要的纽带作用,未来这是有紧密协同效应的产业链。更多终端诞生之后,我相信所有的交互,人类跟很多机器终端的交互都将采用拟人的自然交互模式,更多的自然交互模式将彻底改变现在按键式、菜单式的交互。


3. 云和大模型 AI,是类似电和电机的关系

在这些改变背后,我们看到任何一个企业,当它去拥抱云计算,当它去开发智能体,当它去开发新的 AI native application,它所需要的架构绝对不仅仅是购买几十台、上百台 GPU 推理训练服务器这么简单的工作。


有一句话非常流行,说人工智能的尽头是电力能源供应,这句话虽然有夸大的成分,但有非常确切的理论依据。AI 智能应用的能耗密度要比传统 IT 高出 10 倍以上,整个 GPU 服务器能耗是传统 CPU 能耗的 10-30 倍。当你在类似通义千问这样的大模型应用上计算一道高等数学题时,背后消耗的电量是利用普通搜索引擎检索的近 10 倍。对于很多企业来讲,去大规模构建智能化应用的时候,持续稳定电力供应是非常大的挑战。


再来看算力,算力不仅仅是搭建 GPU 服务器这么简单。大模型的 Scaling Law 原理依然非常有效,但大的 GPU 集群不等于大的算力,1000 台 GPU 的算力不等于 1 台 GPU 服务器乘以 1000 倍。大模型推理和训练过程当中,网络的消耗、I/O 的操作几乎占据了大模型训练推理一半时间。这就意味着对于企业架构来讲,优化网络和 I/O 对提升大模型的效率、使用效果是至关重要的,这里如何构建一个高性能的网络,对于大模型的效率提升是非常重要的。


再看上层应用,当我们在一款 APP 端去发布一个火爆应用,无论是文字、文本、图片、图像,或者是推理计算的时候,会引发千万人、上亿人在同一秒钟涌进 APP 进行尝试。这对应用背后的性能支撑、弹性能力挑战是非常强的,类似于极限“秒杀”。所以,在 AI 原生应用的背后需要有很强的云的特征,低延时、高弹性、应对波峰波谷。


综上所述,今天当我们去拥抱 AI 原生应用、智能体时候,对原有的企业架构绝不仅仅是 GPU 服务器叠加这样简单的事情,它带来的挑战有算力规模化、网络 I/O、高性能存储、电力持续供应、低延时,包括应对上层爆发式业务的弹性能力。


为什么说云和大模型 AI 就是类似于电和电机的关系。今天云的分布式架构能力、全球部署能力、全球一张网的高速通信能力,以及高性能的存储和网络处理能力,以及节能、绿色环保能力,服务器使用效率等等,相比传统企业架构,是更适合为 AI 应用爆发和迭代提供非常有力的全方位支撑。


4. 云计算范畴早已经突破了当初的理念


接下来,我们换另外一个视角,分享一下企业架构在升级时候面临的挑战:AI 和云原生的融合。

云计算大约诞生在 2006 年,容器化技术大约诞生在 2014 年。云原生随着容器化、CI/CD、微服务,DevOps 架构的兴起,整个 Cloud Native 的理念应运而生。但今天回头看 Cloud Native 理念是一个相对狭义的概念,它更加强调在软件开发的研发、测试、运维形态的升级,这些已经被完整吸纳到广义的云原生当中去。站在真正云计算公司角度看,仅有软件开发能力是不够的。今天云计算范畴早已经突破了当初 IaaS、PaaS、SaaS 理念,它往下已经延伸到芯片指令级,多种异构算力的供应,往上已经越过 SaaS 层而延伸到了 AI MaaS 的层面。


当初云计算诞生的时候,视频化技术还没有广泛地流行起来。云计算诞生的时候,整个开源体系,包括大数据、数据库类的开源技术还没有今天这么丰富。今天的云计算考虑的不仅仅是在研发态、部署态、运维态这些层面,还必须考虑从底层的异构算力到网络存储再到到上层的开源技术体系,以及对研发运维体系、云原生架构等技术的全面拥抱。


当面对新的 AI 挑战时,出现了一个新的概念:AI 原生架构。当我们去构建新的 AI 应用或者 AI 智能体时,需要包括高性能的网络、存储等弹性基础设施,底层的基础大模型能力,弹性的 API 能力,以及模型服务工具能力、微调工具、向量数据库等新的能力,这才是一个 AI 原生应用应有框架。

应该说今天的 AI 原生架构既要集成广义云原生的范畴,同时兼具 AI 需要的模型层的技术能力,合在一起就组成了面向的 AI 时代原生技术架构蓝图。


5. 云提供 AI 支撑,绝不是简单提供 GPU 的推理、训练集群

当 AI 原生架构诞生的时候,它对云计算带来了什么样的反哺效应呢?


第一,所有大模型是以向量为单位进行数据处理的,在云原生数据库层面我们增加了对向量的支持。同时我们在 AI 大语言模型时代,为传统广义云原生增加了代码生成、智能运维、智能监测、智能建模等新工具。所以,云和 AI 相互促进,云为 AI 提供了弹性的高可用基础设施。同时,AI 为云带来了智能化的运维、体验、监测、建模能力,以及对数据化能力的重构。


这两年,阿里云应对 AI 的爆发趋势在基础架构层面做了非常多的技术升级,在高性能计算、存储、网络、调度,包括整个智能监控运维上做了非常多的能力升级。


今天云计算公司提供 AI 支撑绝对不简单是提供 GPU 的推理训练集群,我们要考虑多种 GPU 之间的通信和协同效应,不同应用跨数据中心之间的协同效应。实际上我们需要将万卡,甚至十万卡推理或训练集群构建成一台超级计算机的同时必须具备异构芯片的协同调度能力。


第二,高性能网络。在大语言模型的训练推理过程当中,其实网络 I/O 操作消耗的电量和消耗的成本是非常高的。实际上,集群有效算力利用率会随着规模增长而下降,面对这样的挑战,我们做了很多优化工作,包括一个 IDC 内连接超过十万卡形成一个算力集群,将算力集群的效率提升到 90% 以上。


大模型的推理和训练是需要将很多相关任务进行拆分,并且执行多种并行的调度策略,这种并行调度策略对资源有效共享带来了很大挑战。今天云原生的新统一调度引擎支持大规模训推一体的算力集群调度,多种异构算力集群之间的混合调度,动态调度策略调整,以及很重要的一点,就是对于低延时、延迟敏感的应用实现就近推理服务。


在智能监控层面,大规模的集群不免遇到故障,所以对于主动式故障监测、故障自愈也是我们重要的提升方向。今年我们增加了全栈式的监控指标,单机内的毫秒级发现,以及故障的分钟级发现。这些能力,包括大规模训练任务,秒级的 check point 的检查机制,实现对整个高性能集群无感的修复。


综上说述,这就是云计算为什么在 AI 时代更有优势?云面向 AI 的能力提升,能为 AI 应用开发、应用部署提供最强有力的支持和最好的客户体验,AI 应用追求的不仅仅是体验,还要兼具企业应用的基础特征、高可用、业务连续性、数据强一致性等,这才是真正创造社会价值能够更广泛被使用的 AI 应用的核心要素。


6. AI 和数据双向赋能

前面提到,今天 AI 大语言模型的爆发其实是对过去所有技术的继承和优化,尤其是在数据层面。在没有 AI 爆发之前,很多企业都构建了不同类型数据的处理平台,包括数据仓库、数据集市、不同类型数据库,处理不同业务的数据管理平台。


我们在数据和 AI 层面需要做两件事情:一是如何用这些既有的数据源实现对 AI 大模型完整输出链路的打通;二是 AI 和数据的双向赋能。


今天,AI 和数据的关系不完全是云给 AI 提供单向供给数据的。AI 对数据工程有非常多赋能,可以将原有数据平台和 AI 结合产生更有业务价值的结合。很多客户将我们的大语言模型能力和跟传统原有 BI 能力进行结合,让 BI 进行 AI 化升级,让企业管理者更方便地、定制化地去看他们所需要的数据,并给予辅助的决策建议。


AI 大语言模型对数据工程进行深度优化:智能 Copilot&Agent 赋能灵活找数、数据开发效率提升 2 倍;智能数据探查、智能建模、智能全域数据集成、主动式数据资产治理等。


数据向 AI 赋能也不仅仅是供数这么简单,大语言模型的数据单位是向量。今天阿里云为了支持大语言模型的发展,在 OSS、RDS、Polar DB 等核心数据产品中,全部都支持向量数据处理能力。同时,在数据库当中增加了新的能力,实现推理过程的数据缓存。


7. 完整的 AI 开发范式架构图

随着行业发展,技术的发展和迭代,我们有了一些面向 MaaS 层架构的实践思考。这里是面向未来的参考架构图。这张图清晰体现了 MaaS 每一层的功能,也是企业需要的开发技术能力。



对 MaaS 层而言,应该提供的是端到端的 AI 原生应用构建。

  1. 基于底层 AI Infra、原生 Data+AI 的多模态数据架构升级,为 AI 原生应用提供强大的基础平台,支持 AI 原生应用高效稳定运行、灵活的部署选择;

  2. 基础大模型层面 :以阿里云为例,我们推出“通义千问、通义万相”等大模型 、以及大量第三方开源模型,完整覆盖各类 AI 原生应用场景需求;

  3. 模型服务:模型服务平台应该可为用户提供灵活、弹性的大模型 API 和定制服务 ,覆盖诸多业内领先的开源大模型 ,帮助用户快速基于大模型构建生成式应用;

  4. 大模型智能体应用构建:一站式大模型应用生产工具百炼,为用户提供快速、低成本的大模型智能体应用开发标准化方案,整合大模型应用链路中各种工具链、插件、提示词工程模板等,让用户能将大模型的强大能力快速应用到自己的业务中;

  5. 再往上的“专属大模型”领域 ,应该是帮助用户结合行业数据和企业私有数据,进行微调和训练专属大模型 (企业专属知识中心),生成个性化 API 为上层各类应用提供服务从部署选择方面:从下至上可以支持多种部署选择组合,如地域 +AZ 选择 、开源 / 闭源选择、公共云 /VPC 部署 / 私有化选择、训练推理统一部署、云与端侧推理部署选择等。


图的右侧,我们支持了对整个模型训 - 推一体的部署、云端一体的部署、地域 +AZ 选择 、开源 / 闭源选择、公共云 /VPC 部署 / 私有化选择、训练推理统一部署、云与端侧推理部署选择等,方便客户在全国各地,甚至全球快速开发应用、部署应用。


我们认为,这样的 AI 开发范式是包括底层算力,到上层应用的更为完整的范式。


8. AI 原生架构的 9 大要素

AI 爆发对数字世界和物理世界带来改变和冲击,进而带来对于企业架构的冲击,对未来的数据、开发、代码、应用、交互模式上的改变。在 AI 原生架构当中,在实践中我们发现有 9 个要素是非常重要的,这些既来自阿里云自身的实践,也来自于客户共创。



这是我们总结的 AI 原生架构的 9 个方面建议,希望这些实践对大家实际工作有所借鉴。


9. AI 和云的融合将能改变数字世界加物理世界

最后,跟大家分享一下我们的行业实践。


汽车领域是我们非常重视的领域。因为新能源汽车对 AI 和云的需求,已经从原有的车联网延伸到自动驾驶、智能座舱。AI 将对汽车,甚至是机器人领域有一个全新的架构升级和重塑。我们相信自动驾驶一定就是未来最有价值的智能体应用。


在大模型领域我们和中国一汽合作,实现在 BI 领域全面升级。自动驾驶领域,我们跟小鹏汽车展开深度合作。我们希望通过在算力、模型、技术架构方面的合作,让中国汽车行业不仅给客户提供更好的体验,还帮助汽车行业将更好的客客户体验、智驾体验带到全世界。


游戏行业是阿里云最早的一批客户,我们伴随很多客户从中国走向世界,像米哈游这样的企业已经从创业公司变成了世界顶尖的手游公司。今天我们服务的游戏类型也覆盖到了手游、页游,端游等等。在服务众多游戏客户过程中,游戏体验的不断提升也带给阿里云在游戏领域的不断加强的技术积累,游戏正在原有的模式延伸到新的千人千面时代。网易、巨人网络等已经开始大量使用大模型,给玩家提供开放式的结局和不一样的体验。云和 AI 和数据的结合,将给游戏行业带来新一步的升级。


10. 结语:

今年是阿里云的第 15 年,我们走过了三个阶段,第一个阶段是企业上云,是一些传统企业和 PC 端网站。第二个阶段,我们陪伴了第一批移动互联网企业崛起,这些企业是真正的云原生企业,我们也伴随他们从中国走向海外。今天,我们正处于第三个阶段,AI 和云的融合。正如阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭所讲,它带来的改变不仅在于手机屏幕,它将能改变数字世界加物理世界!

我和在座的从业者,有幸见证了第一代和第二代的发展,我们正在一起拥抱第三代 AI 和云的结合。希望我们一起加速推动这个伟大时代的变革。


感谢大家!

2024-09-20 17:048060

评论

发布
暂无评论
发现更多内容

二本渣渣辛酸面试之旅:5 面阿里 Java 岗侥幸上岸,定级 P6

收到请回复

Java 后端 阿里巴巴内部资料

028云原生之产品设计需求

穿过生命散发芬芳

云原生 10月月更

架构实战营 模块二作业

felix

架构实战营

架构训练营-模块一作业

21°Char

通过题目来讲一讲存储器分层体系结构相关知识 1 | 计算机组成与系统结构专题

Regan Yue

计算机组成原理 10月月更

迎接元宇宙时代,百度VR依托AI能力加速元宇宙新基建

百度大脑

人工智能 百度 元宇宙

模块6作业

cherrycheek

分布式事务之TX-LCN

北漂码农有话说

Prometheus 内置函数(五)

耳东@Erdong

Prometheus PromQL 10月月更

第一周学习总结

lxz

用新视角理解新消费里的人货场

石云升

学习笔记 10月月更

模块一作业

AHUI

架构实战营 「架构实战营」

模块9作业

cherrycheek

九月热点:EasyDL智能边缘控制台、EdgeBoard路内停车分析盒全新发布

百度大脑

人工智能 百度

2021年最新基于Spring Cloud的微服务架构分析

程序员 架构 SpringCloud

自定义View:触摸反馈

Changing Lin

10月月更

TX-LCN分布式事务之LCN模式

北漂码农有话说

架构实战营-模块一作业

小饭🍎

架构师 作业 模块一

Tapdata Cloud 版本上新 | 支持通知自配置,支持GP、MQ数据源,界面更友好!

tapdata

数据库 mongodb

模块一

🌾🌾🌾小麦🌾🌾🌾

架构实战营

页面录制服务上线:RESTful API 调用实现,所见所录即所得

声网

RESTful RESTful API

XA 分布式事务协议学习笔记

风翱

XA 10月月更

test

白小黑

模块7作业

cherrycheek

模块8作业

cherrycheek

1.微信业务架构图

@

海量数据分析更快、更稳、更准!GaussDB(for MySQL) HTAP只读分析特性详解

华为云数据库小助手

GaussDB 华为云数据库 GaussDB(for MySQL)

TX-LCN分布式事务之TCC模式

北漂码农有话说

前端中常用的媒体查询详解,sass基础用法概览

你好bk

CSS html css3 大前端 SASS

To B的网易

海比研究院

大模型的未来在哪?

脑极体

阿里云刘伟光:云之于AI,绝不仅仅是算力供应_阿里巴巴_阿里云_InfoQ精选文章