写点什么

AI 激战进入下半场,“推理”还卷得动吗?

  • 2024-06-27
    北京
  • 本文字数:4554 字

    阅读完需:约 15 分钟

AI 激战进入下半场,“推理”还卷得动吗?

不久前,一场前所未有的价格战在 AI 领域打响,其激烈程度堪比一场商业风暴。以阿里云、百度、腾讯为代表的头部厂商纷纷宣布大幅降价,引发了圈内巨大震动,其中阿里云的通义千问 GPT-4 级主力模型 Qwen-Long,其 API 输入价格从 0.02 元 / 千 tokens 直降至 0.0005 元 / 千 tokens,降幅高达 97%!


价格战愈演愈烈的原因有很多,但无论是什么原因,我们看到的都是,通用大模型崛起后的这场价格战,将云厂商的竞争推向高潮。从讲“服务故事”到血拼 tokens 价格,云厂商的价值在这场“降本”的变革中再次受到严峻审视。但聚焦技术本身,如果想要实现技术的可持续性发展,把握好技术革新与规模经济之间的关系才是真正的破局之法。


随着云计算技术的不断革新和规模效应的扩大,AI 服务成本显著降低,让更多企业和个人能够负担得起并采纳 AI 服务。同时,云计算飞轮的加速旋转也带来了极大丰富的计算资源,让 AI 模型能够更快、更准地完成训练和推理。


过去半年,美国湾区的推理已经迈入每秒生成千个 token 的大关,英伟达发布了号称“史上最强的 AI 芯片”,官方称推理性能提升了 30 倍;百度发布了文心大模型 4.0 的工具版,官方称该模型的推理性能提升了 105 倍,推理成本降到了原来的 1%;腾讯太极机器学习平台研发了 Angel-HCF 推理框架和 Angel-SNIP 压缩框架;Meta 公布了其定制 AI 芯片 MTIA 的最新版本,专门设计用于 AI 训练和推理工作,还在 AI 推理和规划方面进行了深入探索,逐渐接近通用人工智能(AGI)……显而易见,当大家“卷”完行业大模型的构建,比拼谁能拥有更多业务数据进行模型训练之后,“AI 推理”或成为新赛点。


根据 IDC 数据,随着人工智能进入大规模落地应用的关键时期,云端推理占算力的比例将逐步提升,“预计到 2026 年,推理占到 62.2%,训练占 37.8%。”这一预测进一步强调了 AI 推理在未来市场竞争中的核心地位。而高性能 AI 推理的背后是海量算力,这意味着 AI 基础设施将是未来市场竞争的基本盘。


据信通院发布的《新一代人工智能基础设施白皮书》数据显示,AI 领域的大模型参数量正在以惊人的速度增长,年均复合增长率达到 400%,算力需求的增长更是超出了摩尔定律的预测,达到了惊人的 15 万倍,对 AI 基础设施提出了前所未有的挑战。传统的 CPU、GPU 堆砌方案已经无法满足 AI 大模型的研发需求,加上企业对于 MaaS(大模型即服务)的需求日益增加,企业需要更高效、更灵活的基础设施来支撑 AI 应用的开发和部署。


可以说,新一代 AI 基础设施不仅要关注硬件设备的升级,更要注重软件、算法和数据服务的整合与优化,需要通过精细化的设计和重构,提升计算、存储、网络以及数据服务的性能,为 AI 应用提供更高效、更可靠的支持。


一、云服务"规模经济":AI 基础设施成本大降的终极利刃


今年 3 月,开源平台 ClearML 发布的最新调研报告《2024 年 AI 基础设施规模现状:揭示未来前景、关键见解和商业基准》中显示,企业购买推理方案的关键因素是成本——为了解决 GPU 缺乏的问题,约 52% 的受访者在 2024 年积极寻找低本高效的 GPU 替代品用于推理,其中 20% 的受访者表示对低本高效的 GPU 替代品感兴趣,但还找不到替代品。这意味着,由于大多数企业尚未达到生成式 AI 的大规模生产,低本高效推理计算需求将呈现增长趋势。


在如此趋势下,越来越多的企业开始将 AI 推理迁移到按需付费的云端进行。


云计算服务市场是一个典型的“规模经济”。随着用户基数的扩大,云厂商可以通过大规模采购硬件、优化资源分配和提高运营效率来分摊固定成本,从而实现成本效益的最大化,这种成本优势让云厂商能够以更具竞争力的价格向市场提供服务。同时,规模经济效应还能加速技术创新和服务多样化,较大的用户基础为其带来了更多的数据和反馈,这有助于其更深入地理解客户需求,快速迭代产品,推出更符合市场需求的新服务和功能。


而在所有的云服务中,GPU 云服务器对 AI 基础设施建设的意义最为关键,它极大地提升了 AI 基础设施的处理能力。通过集成 GPU 云服务器,AI 基础设施能够更高效、更快速地完成训练和推理任务,从而加速 AI 项目的研发进展。这不仅能使企业抢占市场先机,还能在获得大量数据后进一步优化自身模型,积累更为丰富的数据库。


以阿里云 GPU 云服务器为例,其神龙架构支撑裸金属实例,实例内 GPU 实现全速 P2P 功能,集合通信能力提升 20%,在微调和多卡推理过程提升性能 6%。在支持包年包月和按量计费的两种低成本购买方式的情况下,阿里云 GPU 云服务器还提供了针对 AI 应用部署及优化的免费工具,实现面向训推场景的 GPU 性能优化,其在同等硬件条件下,LLM 大模型推理性能提升超 100%,LLM 大模型微调训练性能提升 50%。



去年一经上线就出圈爆火的 AI 应用“妙鸭相机”,随访问量的激增,对 GPU 服务器的算力需求激增至数千台规模。阿里云 GPU 云服务器为其提供了训推一体的解决方案,助其缩短 19% 的端到端微调时间,推理效率提升 100%。训练时间的减少,不仅意味着成本的降低,也意味着妙鸭 C 端客户更短的等待时间和更好的体验。


二、云服务创新:AI 时代 IT 基础架构变革的雷霆引擎


深度学习自 2012 年在 AI 领域确立其核心地位之后,尽管为应用带来了显著赋能,但很长一段时间里并未彻底改变应用研发范式。直至云服务的崛起,数字化基础设施的格局发生了根本性变化,计算、网络和存储的虚拟化使得算力成为基础服务,云原生架构的应用研发模式大幅提升了开发迭代效率。后来随着大模型技术的广泛应用,大模型以 AI 原生应用的形式深入多场景,并转化为一种通用的服务 MaaS,降低了 AI 技术的落地门槛。而作为基础设施的云服务,也在大模型发展的推动下,产生了云原生“AI 化”的转变,重塑了云计算产业格局。


这种转变不仅体现在 AI 技术作为服务(MaaS)的广泛应用上,更在基础设施层面推动了 GPU 云服务器的革命性转变。面对高速演进的 AI 技术对 GPU 资源提出的愈来愈高的要求,基于云原生“AI 化”的趋势,以确保资源能够按需分配、高效利用。当前,以容器为代表的云原生技术正在完成进一步创新,IT 系统需要更加模块化和灵活以适应 AI 应用的迭代和更新。


在 AI 应用研发场景中,当 GPU 云服务器被多个用户或应用共享时,特别是在资源需求不均或变化频繁的情况下,资源分配和调度可能不够灵活,导致 GPU 利用率低下。此时便可以使用类似于阿里云容器服务 Kubernetes 版 ACK 提供的云原生技术来解决问题。ACK 丰富的 GPU 集群弹性伸缩能力可以帮助企业灵活应对工作负载变化,根据资源使用情况,企业可以快速动态调整容器数量,数分钟内扩展至上千节点。容器所具备的环境隔离性保证了 AI 模型推理的稳定性和一致性,减少因环境差异导致的错误和冲突,可以加速模型的迭代和部署过程。


阿里云 ACK 提供“云原生 AI 套件”,企业可以充分利用云原生架构和技术,在 Kubernetes 容器平台上快速定制化构建 AI 生产系统,并为 AI/ML 应用和系统提供全栈优化。在实际 AI 推理场景下,基于标准 Kubernetes 提供的组件化能力,同时通过共享 GPU 方案,对比自建 GPU 集群算力利用率提升 100%。除此之外,通过数据加速 Fluid,AI 推理场景数据访问资源成本可以降低 10 倍左右。更值得一提的是,这套云原生 AI 套件自 6 月 6 日起全面免费,企业成本直接降为 0!



除了云原生架构的迭代创新,数据作为 AI 技术的“食粮”,其存储架构也在发生变革。随着数据量的激增,传统的存储解决方案已经无法满足 AI 对于高吞吐量和低延迟访问的需求。因此,可以在单个全局命名空间中无限扩展到数十 PB 甚至更多、可以为 AI 工作负载提供理想的存储解决方案——对象存储技术被广泛应用并持续迭代。


在目前的 AI 推理场景中,大家常会遇到的问题是,模型推理需要拉取加载模型文件,在调试过程中还需要不断切换新的模型文件进行尝试,而且随着模型文件的不断增大,推理服务器拉取模型文件所需时间越来越长。


面对这个挑战,许多企业将阿里云对象存储 OSS 作为解决方案。对比传统存储,OSS 的吞吐能力超过 10Tbps,从 OSS 下载 270GB 模型文件用时降低至 21s,通过低延时高吞吐的方式快速把模型文件传输到容器节点,减少 GPU 等待时间,可大大提升推理效率。此外,阿里云 OSS 加速器在 AI 推理环节支持 SD、Transformers 等多种推理框架,性能最高可 burst 至 40GB/s。



可以说,大模型的发展标志着 AI 技术进入了一个全新的阶段,它不仅仅是对以往 AI 技术迭代的延续,更是对底层 IT 基础设施和上层应用开发模式的一次深刻重构。云服务作为 IT 基础架构的核心部分,必须承担起引领创新变革的重任。


三、生态协同:云计算与 AI 深度融合的超级加速器


如今,大模型已经开始卷价格,对比云计算用了 16 年才开始卷价格,AI 市场厮杀的激烈程度不言而喻,甚至 AI 已经让卷到"很卷"的云计算变得“更卷”。


于此,云厂商不仅需要有强大的技术研发能力,更需要构建一个健康、活跃的生态,以实现资源的优化配置和价值的最大化,而创新就是云计算飞轮持续旋转的核心动力。AI 借助云计算的强大算力处理海量数据,实现智能化应用;云计算则为 AI 提供稳定的技术底座,促进技术再升级。两者形成的良好技术生态共同助力着全产业智能化发展,吸引着更多开发者、企业参与技术创新。


通过生态协同,云厂商能够与上下游企业共同产品和服务的持续创新;通过与合作伙伴的深度合作,实际业务场景下的需求正在驱动着云厂商技术迭代与创新。


这种繁荣的生态系统为阿里云带来了更多的创新服务和应用,从而铺建了其在行业里的领先地位。通过合作伙伴的支持,阿里云为客户提供更加丰富多样的云计算产品,其“先进、稳定、易用、高性价比”的优势也助力许多企业客户获得了业务成功。这个过程中,阿里云积累了丰富的市场经验,同时拥有了庞大的计算资源和海量数据,为 AI 大模型的研发提供了坚实的后盾,从而走在了大模型厂商前列。


阿里云在 AI 大模型研发与云计算领域的双重领先优势,让其在 AI 基础设施构建方面拥有了得天独厚的条件。不仅为 AI 基础设施的构建提供了坚实的基础,更在不断地将这一优势转化为实际的产品和服务。而且,阿里云非常清楚——除了技术具有前沿性外,如何将这些技术有效地应用到实际场景中以解决实际业务问题,同样至关重要。


于是,基于深厚的 AI 技术实力和深刻的市场洞察,阿里云正在持续为企业提供既领先又容易落地的 AI 基础设施解决方案。为了帮助企业和开发者在多达数百款云产品中,根据自身业务问题快速定位关键产品需求,阿里云还推出了明星云产品推荐计划“飞天星品”,点击本文文末的"阅读原文"可查看飞天星品的页面详情大家可以在“飞天星品”上解决云产品选型难、使用方式复杂、场景定位模糊等问题,轻松选到最好用、最高性价比、最适合自己的云产品。


不仅如此,今年 618 阿里云首度推出 5 亿算力补贴,并带来多项 200 余种热门云产品折上折活动,助力更多企业、创业者与开发者可以使用普惠算力,更好地上云创新。


登录阿里云官网,获取算力补贴


展望未来,云计算和 AI 技术的融合将进一步加速,共同推动数字化转型的浪潮。云计算的飞轮已经加速旋转,它带来的不仅仅是成本的降低和效率的提升,更是业务模式的创新和生态的构建,AI 技术也因此将得到更加广泛的应用和普及。我们期待看到更多的企业能够利用阿里云产品和服务,实现业务的快速增长和创新发展,共同推动 AI 技术的更快发展。

2024-06-27 15:256622
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 362 篇内容, 共 271.6 次阅读, 收获喜欢 297 次。

关注

评论

发布
暂无评论
发现更多内容

微服务架构中的多级缓存设计还有人不懂?

小小怪下士

Java 程序员 架构 微服务

MQTT遗嘱消息(Will Message)的使用

EMQ映云科技

物联网 IoT mqtt 企业号 2 月 PK 榜 遗嘱消息

长沙等保测评公司有哪些?现在有新增吗?

行云管家

等保 等级保护 等保测评 长沙

天翼云iBox边缘盒子四大优势,让人工智能在边缘侧“狂飙”

天翼云开发者社区

PostgreSQL:进程结构

天翼云开发者社区

使用element-ui 的上传组件upload完成自定义上传到天翼云oss云服务器

天翼云开发者社区

火热报名 | DockQuery 1.2 beta版本体验官开启招募!

BinTools图尔兹

数据库 协作 研发 体验官

有奖调研!第五期(2022-2023)传统行业云原生技术落地调研——金融篇

York

容器 微服务 云原生 问卷调研

2023“Java基础-中级-高级”面试集结,已奉上我的膝盖

程序知音

Java java面试 金三银四 后端技术 Java面试八股文

基于鲲鹏DevKit原生开发光伏智能巡检平台,性能提升44%

Geek_2d6073

打造合规数据闭环,加速自动驾驶技术研发

百度开发者中心

自动驾驶 人工智能’

云管理行业标杆产品有哪些品牌?大家重点推荐哪家?

行云管家

云计算 云服务 云管理 云管

全球首个云渗透测试认证专家课程发布!腾讯安全领衔编制

腾讯安全云鼎实验室

云安全

共铸国云智领未来| 装上“数智”引擎,助力汽车生产跑出“加速度”

天翼云开发者社区

领跑政务云市场!天翼云持续深耕政务云建设

天翼云开发者社区

跨越声音障碍,虚拟数字人「手语翻译官」开发落地实践

阿里技术

人工智能 数字人 虚拟人 技术温度

移动应用程序开发新趋势

没有用户名丶

模块7作业

程序员小张

「架构实战营」

免费领取丨精算与金融建模行业解决方案白皮书,不要错过!

葡萄城技术团队

瓴羊Quick BI提供移动端自助分析整体解决方案,Fine BI、Smart BI何时赶上?

小偏执o

Zebec生态持续深度布局,ZBC通证月内翻倍或只是开始

鳄鱼视界

第七周作业-王者荣耀商城异地多活架构设计

不爱学习的程序猿

JS语法让人困惑的点 “==与===”

葡萄城技术团队

深入理解跳表及其在Redis中的应用

京东科技开发者

redis 数据结构 算法 跳表 链接

MQTT协议Keep Alive详解

EMQ映云科技

物联网 IoT mqtt 企业号 2 月 PK 榜 半连接

A/B测试成为企业“新窗口”:增长盈利告别经验主义,数据科学才是未来

字节跳动数据平台

大数据 AB testing实战 企业号 2 月 PK 榜

chatGPT接入微信公众号方法总结(纯聊技术)

特立独行的猫

微信 ChatGPT 公众号接入

10 分钟搭建自己的专属 ChatGPT

FinClip

HTML性能优化-Prerender2.0机制解读

百度Geek说

html API 企业号 2 月 PK 榜

更轻量的百度百舸,CCE Stack 智算版发布

百度开发者中心

云计算平台 百度百舸

DevData Talks | 对谈谷歌云 DORA 布道师,像谷歌一样度量 DevOps 表现

思码逸研发效能

研发效能

AI 激战进入下半场,“推理”还卷得动吗?_阿里巴巴_鲁冬雪_InfoQ精选文章