写点什么

AI 激战进入下半场,“推理”还卷得动吗?

  • 2024-06-27
    北京
  • 本文字数:4554 字

    阅读完需:约 15 分钟

AI 激战进入下半场,“推理”还卷得动吗?

不久前,一场前所未有的价格战在 AI 领域打响,其激烈程度堪比一场商业风暴。以阿里云、百度、腾讯为代表的头部厂商纷纷宣布大幅降价,引发了圈内巨大震动,其中阿里云的通义千问 GPT-4 级主力模型 Qwen-Long,其 API 输入价格从 0.02 元 / 千 tokens 直降至 0.0005 元 / 千 tokens,降幅高达 97%!


价格战愈演愈烈的原因有很多,但无论是什么原因,我们看到的都是,通用大模型崛起后的这场价格战,将云厂商的竞争推向高潮。从讲“服务故事”到血拼 tokens 价格,云厂商的价值在这场“降本”的变革中再次受到严峻审视。但聚焦技术本身,如果想要实现技术的可持续性发展,把握好技术革新与规模经济之间的关系才是真正的破局之法。


随着云计算技术的不断革新和规模效应的扩大,AI 服务成本显著降低,让更多企业和个人能够负担得起并采纳 AI 服务。同时,云计算飞轮的加速旋转也带来了极大丰富的计算资源,让 AI 模型能够更快、更准地完成训练和推理。


过去半年,美国湾区的推理已经迈入每秒生成千个 token 的大关,英伟达发布了号称“史上最强的 AI 芯片”,官方称推理性能提升了 30 倍;百度发布了文心大模型 4.0 的工具版,官方称该模型的推理性能提升了 105 倍,推理成本降到了原来的 1%;腾讯太极机器学习平台研发了 Angel-HCF 推理框架和 Angel-SNIP 压缩框架;Meta 公布了其定制 AI 芯片 MTIA 的最新版本,专门设计用于 AI 训练和推理工作,还在 AI 推理和规划方面进行了深入探索,逐渐接近通用人工智能(AGI)……显而易见,当大家“卷”完行业大模型的构建,比拼谁能拥有更多业务数据进行模型训练之后,“AI 推理”或成为新赛点。


根据 IDC 数据,随着人工智能进入大规模落地应用的关键时期,云端推理占算力的比例将逐步提升,“预计到 2026 年,推理占到 62.2%,训练占 37.8%。”这一预测进一步强调了 AI 推理在未来市场竞争中的核心地位。而高性能 AI 推理的背后是海量算力,这意味着 AI 基础设施将是未来市场竞争的基本盘。


据信通院发布的《新一代人工智能基础设施白皮书》数据显示,AI 领域的大模型参数量正在以惊人的速度增长,年均复合增长率达到 400%,算力需求的增长更是超出了摩尔定律的预测,达到了惊人的 15 万倍,对 AI 基础设施提出了前所未有的挑战。传统的 CPU、GPU 堆砌方案已经无法满足 AI 大模型的研发需求,加上企业对于 MaaS(大模型即服务)的需求日益增加,企业需要更高效、更灵活的基础设施来支撑 AI 应用的开发和部署。


可以说,新一代 AI 基础设施不仅要关注硬件设备的升级,更要注重软件、算法和数据服务的整合与优化,需要通过精细化的设计和重构,提升计算、存储、网络以及数据服务的性能,为 AI 应用提供更高效、更可靠的支持。


一、云服务"规模经济":AI 基础设施成本大降的终极利刃


今年 3 月,开源平台 ClearML 发布的最新调研报告《2024 年 AI 基础设施规模现状:揭示未来前景、关键见解和商业基准》中显示,企业购买推理方案的关键因素是成本——为了解决 GPU 缺乏的问题,约 52% 的受访者在 2024 年积极寻找低本高效的 GPU 替代品用于推理,其中 20% 的受访者表示对低本高效的 GPU 替代品感兴趣,但还找不到替代品。这意味着,由于大多数企业尚未达到生成式 AI 的大规模生产,低本高效推理计算需求将呈现增长趋势。


在如此趋势下,越来越多的企业开始将 AI 推理迁移到按需付费的云端进行。


云计算服务市场是一个典型的“规模经济”。随着用户基数的扩大,云厂商可以通过大规模采购硬件、优化资源分配和提高运营效率来分摊固定成本,从而实现成本效益的最大化,这种成本优势让云厂商能够以更具竞争力的价格向市场提供服务。同时,规模经济效应还能加速技术创新和服务多样化,较大的用户基础为其带来了更多的数据和反馈,这有助于其更深入地理解客户需求,快速迭代产品,推出更符合市场需求的新服务和功能。


而在所有的云服务中,GPU 云服务器对 AI 基础设施建设的意义最为关键,它极大地提升了 AI 基础设施的处理能力。通过集成 GPU 云服务器,AI 基础设施能够更高效、更快速地完成训练和推理任务,从而加速 AI 项目的研发进展。这不仅能使企业抢占市场先机,还能在获得大量数据后进一步优化自身模型,积累更为丰富的数据库。


以阿里云 GPU 云服务器为例,其神龙架构支撑裸金属实例,实例内 GPU 实现全速 P2P 功能,集合通信能力提升 20%,在微调和多卡推理过程提升性能 6%。在支持包年包月和按量计费的两种低成本购买方式的情况下,阿里云 GPU 云服务器还提供了针对 AI 应用部署及优化的免费工具,实现面向训推场景的 GPU 性能优化,其在同等硬件条件下,LLM 大模型推理性能提升超 100%,LLM 大模型微调训练性能提升 50%。



去年一经上线就出圈爆火的 AI 应用“妙鸭相机”,随访问量的激增,对 GPU 服务器的算力需求激增至数千台规模。阿里云 GPU 云服务器为其提供了训推一体的解决方案,助其缩短 19% 的端到端微调时间,推理效率提升 100%。训练时间的减少,不仅意味着成本的降低,也意味着妙鸭 C 端客户更短的等待时间和更好的体验。


二、云服务创新:AI 时代 IT 基础架构变革的雷霆引擎


深度学习自 2012 年在 AI 领域确立其核心地位之后,尽管为应用带来了显著赋能,但很长一段时间里并未彻底改变应用研发范式。直至云服务的崛起,数字化基础设施的格局发生了根本性变化,计算、网络和存储的虚拟化使得算力成为基础服务,云原生架构的应用研发模式大幅提升了开发迭代效率。后来随着大模型技术的广泛应用,大模型以 AI 原生应用的形式深入多场景,并转化为一种通用的服务 MaaS,降低了 AI 技术的落地门槛。而作为基础设施的云服务,也在大模型发展的推动下,产生了云原生“AI 化”的转变,重塑了云计算产业格局。


这种转变不仅体现在 AI 技术作为服务(MaaS)的广泛应用上,更在基础设施层面推动了 GPU 云服务器的革命性转变。面对高速演进的 AI 技术对 GPU 资源提出的愈来愈高的要求,基于云原生“AI 化”的趋势,以确保资源能够按需分配、高效利用。当前,以容器为代表的云原生技术正在完成进一步创新,IT 系统需要更加模块化和灵活以适应 AI 应用的迭代和更新。


在 AI 应用研发场景中,当 GPU 云服务器被多个用户或应用共享时,特别是在资源需求不均或变化频繁的情况下,资源分配和调度可能不够灵活,导致 GPU 利用率低下。此时便可以使用类似于阿里云容器服务 Kubernetes 版 ACK 提供的云原生技术来解决问题。ACK 丰富的 GPU 集群弹性伸缩能力可以帮助企业灵活应对工作负载变化,根据资源使用情况,企业可以快速动态调整容器数量,数分钟内扩展至上千节点。容器所具备的环境隔离性保证了 AI 模型推理的稳定性和一致性,减少因环境差异导致的错误和冲突,可以加速模型的迭代和部署过程。


阿里云 ACK 提供“云原生 AI 套件”,企业可以充分利用云原生架构和技术,在 Kubernetes 容器平台上快速定制化构建 AI 生产系统,并为 AI/ML 应用和系统提供全栈优化。在实际 AI 推理场景下,基于标准 Kubernetes 提供的组件化能力,同时通过共享 GPU 方案,对比自建 GPU 集群算力利用率提升 100%。除此之外,通过数据加速 Fluid,AI 推理场景数据访问资源成本可以降低 10 倍左右。更值得一提的是,这套云原生 AI 套件自 6 月 6 日起全面免费,企业成本直接降为 0!



除了云原生架构的迭代创新,数据作为 AI 技术的“食粮”,其存储架构也在发生变革。随着数据量的激增,传统的存储解决方案已经无法满足 AI 对于高吞吐量和低延迟访问的需求。因此,可以在单个全局命名空间中无限扩展到数十 PB 甚至更多、可以为 AI 工作负载提供理想的存储解决方案——对象存储技术被广泛应用并持续迭代。


在目前的 AI 推理场景中,大家常会遇到的问题是,模型推理需要拉取加载模型文件,在调试过程中还需要不断切换新的模型文件进行尝试,而且随着模型文件的不断增大,推理服务器拉取模型文件所需时间越来越长。


面对这个挑战,许多企业将阿里云对象存储 OSS 作为解决方案。对比传统存储,OSS 的吞吐能力超过 10Tbps,从 OSS 下载 270GB 模型文件用时降低至 21s,通过低延时高吞吐的方式快速把模型文件传输到容器节点,减少 GPU 等待时间,可大大提升推理效率。此外,阿里云 OSS 加速器在 AI 推理环节支持 SD、Transformers 等多种推理框架,性能最高可 burst 至 40GB/s。



可以说,大模型的发展标志着 AI 技术进入了一个全新的阶段,它不仅仅是对以往 AI 技术迭代的延续,更是对底层 IT 基础设施和上层应用开发模式的一次深刻重构。云服务作为 IT 基础架构的核心部分,必须承担起引领创新变革的重任。


三、生态协同:云计算与 AI 深度融合的超级加速器


如今,大模型已经开始卷价格,对比云计算用了 16 年才开始卷价格,AI 市场厮杀的激烈程度不言而喻,甚至 AI 已经让卷到"很卷"的云计算变得“更卷”。


于此,云厂商不仅需要有强大的技术研发能力,更需要构建一个健康、活跃的生态,以实现资源的优化配置和价值的最大化,而创新就是云计算飞轮持续旋转的核心动力。AI 借助云计算的强大算力处理海量数据,实现智能化应用;云计算则为 AI 提供稳定的技术底座,促进技术再升级。两者形成的良好技术生态共同助力着全产业智能化发展,吸引着更多开发者、企业参与技术创新。


通过生态协同,云厂商能够与上下游企业共同产品和服务的持续创新;通过与合作伙伴的深度合作,实际业务场景下的需求正在驱动着云厂商技术迭代与创新。


这种繁荣的生态系统为阿里云带来了更多的创新服务和应用,从而铺建了其在行业里的领先地位。通过合作伙伴的支持,阿里云为客户提供更加丰富多样的云计算产品,其“先进、稳定、易用、高性价比”的优势也助力许多企业客户获得了业务成功。这个过程中,阿里云积累了丰富的市场经验,同时拥有了庞大的计算资源和海量数据,为 AI 大模型的研发提供了坚实的后盾,从而走在了大模型厂商前列。


阿里云在 AI 大模型研发与云计算领域的双重领先优势,让其在 AI 基础设施构建方面拥有了得天独厚的条件。不仅为 AI 基础设施的构建提供了坚实的基础,更在不断地将这一优势转化为实际的产品和服务。而且,阿里云非常清楚——除了技术具有前沿性外,如何将这些技术有效地应用到实际场景中以解决实际业务问题,同样至关重要。


于是,基于深厚的 AI 技术实力和深刻的市场洞察,阿里云正在持续为企业提供既领先又容易落地的 AI 基础设施解决方案。为了帮助企业和开发者在多达数百款云产品中,根据自身业务问题快速定位关键产品需求,阿里云还推出了明星云产品推荐计划“飞天星品”,点击本文文末的"阅读原文"可查看飞天星品的页面详情大家可以在“飞天星品”上解决云产品选型难、使用方式复杂、场景定位模糊等问题,轻松选到最好用、最高性价比、最适合自己的云产品。


不仅如此,今年 618 阿里云首度推出 5 亿算力补贴,并带来多项 200 余种热门云产品折上折活动,助力更多企业、创业者与开发者可以使用普惠算力,更好地上云创新。


登录阿里云官网,获取算力补贴


展望未来,云计算和 AI 技术的融合将进一步加速,共同推动数字化转型的浪潮。云计算的飞轮已经加速旋转,它带来的不仅仅是成本的降低和效率的提升,更是业务模式的创新和生态的构建,AI 技术也因此将得到更加广泛的应用和普及。我们期待看到更多的企业能够利用阿里云产品和服务,实现业务的快速增长和创新发展,共同推动 AI 技术的更快发展。

2024-06-27 15:256842
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 367 篇内容, 共 301.4 次阅读, 收获喜欢 301 次。

关注

评论

发布
暂无评论
发现更多内容

Elasticsearch Enterprise 8.18 (macOS, Linux, Windows) - 分布式搜索和分析引擎

sysin

elasticsearch

数智焕新| 4月招商局集团、悦达集团等选择用友BIP

用友BIP

PET口语APP的开发流程

北京木奇移动技术有限公司

软件外包公司 AI口语学习 PET考试

【AI聊天机器人】轻松上手,快速配置实战指南

JEECG低代码

AI大模型 AI应用 AIGC AI聊天

AI+高等教育,和鲸Heywhale上线从通识到“学科+AI”的解决方案2.0

ModelWhale

人工智能 数字化教育 智慧教育

数智焕新进行时,用友BIP助力企业跨越周期、迈向高质量发展

用友BIP

用友BIP再发新品,开启「人+智能体+群」业务协同新模式

用友BIP

国内远程控制安全性天花板?ToDesk、向日葵、UU远程、RayLink深度对比

小喵子

远控工具 向日葵 远控软件 ToDesk

香港人工智能营销技术研究院正式揭牌成立

东信营销科技

从 SQL Server 到 TiDB:恺恩泰助力 40 + 医院数据平台升级的技术实践

TiDB 社区干货传送门

Elasticsearch Enterprise 9.0 (macOS, Linux, Windows) - 分布式搜索和分析引擎

sysin

elasticsearch

JEB Pro v5.29 (macOS, Linux, Windows) - 逆向工程平台

sysin

JEB

GreatSQL Hash Join 条件列长度对执行计划的影响

GreatSQL

悦达集团与用友战略签约,共启数智发展新纪元!

用友BIP

区块链ETF软件的核心功能

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

迭代器失效:99%的C++程序员都会踩的坑 !

电子尖叫食人鱼

c++

Nexpose 8.6.0 for Linux & Windows - 漏洞扫描

sysin

Dell OpenManage Enterprise 4.4 - Dell 服务器、存储和网络设备集中管理软件

sysin

dell

区块链ETF软件的功能模块

北京木奇移动技术有限公司

区块链开发 软件外包公司 区块链ETF

从人工智能到业务落地,低代码搭建智能工作流

天津汇柏科技有限公司

人工智能 低代码

「摩根士丹利」最新人形机器人研报:5万亿美元全球市场和最佳商业模式分析(附报告)

机器人头条

科技 大模型 人形机器人 具身智能

苏州企业等保快速通关小秘诀看这里!

行云管家

等保 等保测评

AI大模型入门(二):不微调的大模型能用吗?

测试人

人工智能

启动!华润五丰携手用友推进数智化渠道协同管理

用友BIP

用友签约招商局集团人力资源智慧系统(二期)

用友BIP

Head First LLM-开篇

好名字可以让你的朋友更容易记住你

#大模型

PET口语练习APP的技术框架

北京木奇移动技术有限公司

软件外包公司 AI口语练习 PET考试

用友携手中展集团,打造会展行业首个AI智能体集群

用友BIP

AI重构人力价值链:从“人效管理”到“智效革命”

用友BIP

签约!杭州金投选择用友BIP推进业财一体化,加强精益化管理

用友BIP

白鳝:国产化替换浪潮进行时,信创数据库该如何选型?

TiDB 社区干货传送门

AI 激战进入下半场,“推理”还卷得动吗?_阿里巴巴_鲁冬雪_InfoQ精选文章