限时企业福利|100+ AI 好课免费系统学,即刻领取>>> 了解详情
写点什么

AI 激战进入下半场,“推理”还卷得动吗?

  • 2024-06-27
    北京
  • 本文字数:4554 字

    阅读完需:约 15 分钟

AI 激战进入下半场,“推理”还卷得动吗?

不久前,一场前所未有的价格战在 AI 领域打响,其激烈程度堪比一场商业风暴。以阿里云、百度、腾讯为代表的头部厂商纷纷宣布大幅降价,引发了圈内巨大震动,其中阿里云的通义千问 GPT-4 级主力模型 Qwen-Long,其 API 输入价格从 0.02 元 / 千 tokens 直降至 0.0005 元 / 千 tokens,降幅高达 97%!


价格战愈演愈烈的原因有很多,但无论是什么原因,我们看到的都是,通用大模型崛起后的这场价格战,将云厂商的竞争推向高潮。从讲“服务故事”到血拼 tokens 价格,云厂商的价值在这场“降本”的变革中再次受到严峻审视。但聚焦技术本身,如果想要实现技术的可持续性发展,把握好技术革新与规模经济之间的关系才是真正的破局之法。


随着云计算技术的不断革新和规模效应的扩大,AI 服务成本显著降低,让更多企业和个人能够负担得起并采纳 AI 服务。同时,云计算飞轮的加速旋转也带来了极大丰富的计算资源,让 AI 模型能够更快、更准地完成训练和推理。


过去半年,美国湾区的推理已经迈入每秒生成千个 token 的大关,英伟达发布了号称“史上最强的 AI 芯片”,官方称推理性能提升了 30 倍;百度发布了文心大模型 4.0 的工具版,官方称该模型的推理性能提升了 105 倍,推理成本降到了原来的 1%;腾讯太极机器学习平台研发了 Angel-HCF 推理框架和 Angel-SNIP 压缩框架;Meta 公布了其定制 AI 芯片 MTIA 的最新版本,专门设计用于 AI 训练和推理工作,还在 AI 推理和规划方面进行了深入探索,逐渐接近通用人工智能(AGI)……显而易见,当大家“卷”完行业大模型的构建,比拼谁能拥有更多业务数据进行模型训练之后,“AI 推理”或成为新赛点。


根据 IDC 数据,随着人工智能进入大规模落地应用的关键时期,云端推理占算力的比例将逐步提升,“预计到 2026 年,推理占到 62.2%,训练占 37.8%。”这一预测进一步强调了 AI 推理在未来市场竞争中的核心地位。而高性能 AI 推理的背后是海量算力,这意味着 AI 基础设施将是未来市场竞争的基本盘。


据信通院发布的《新一代人工智能基础设施白皮书》数据显示,AI 领域的大模型参数量正在以惊人的速度增长,年均复合增长率达到 400%,算力需求的增长更是超出了摩尔定律的预测,达到了惊人的 15 万倍,对 AI 基础设施提出了前所未有的挑战。传统的 CPU、GPU 堆砌方案已经无法满足 AI 大模型的研发需求,加上企业对于 MaaS(大模型即服务)的需求日益增加,企业需要更高效、更灵活的基础设施来支撑 AI 应用的开发和部署。


可以说,新一代 AI 基础设施不仅要关注硬件设备的升级,更要注重软件、算法和数据服务的整合与优化,需要通过精细化的设计和重构,提升计算、存储、网络以及数据服务的性能,为 AI 应用提供更高效、更可靠的支持。


一、云服务"规模经济":AI 基础设施成本大降的终极利刃


今年 3 月,开源平台 ClearML 发布的最新调研报告《2024 年 AI 基础设施规模现状:揭示未来前景、关键见解和商业基准》中显示,企业购买推理方案的关键因素是成本——为了解决 GPU 缺乏的问题,约 52% 的受访者在 2024 年积极寻找低本高效的 GPU 替代品用于推理,其中 20% 的受访者表示对低本高效的 GPU 替代品感兴趣,但还找不到替代品。这意味着,由于大多数企业尚未达到生成式 AI 的大规模生产,低本高效推理计算需求将呈现增长趋势。


在如此趋势下,越来越多的企业开始将 AI 推理迁移到按需付费的云端进行。


云计算服务市场是一个典型的“规模经济”。随着用户基数的扩大,云厂商可以通过大规模采购硬件、优化资源分配和提高运营效率来分摊固定成本,从而实现成本效益的最大化,这种成本优势让云厂商能够以更具竞争力的价格向市场提供服务。同时,规模经济效应还能加速技术创新和服务多样化,较大的用户基础为其带来了更多的数据和反馈,这有助于其更深入地理解客户需求,快速迭代产品,推出更符合市场需求的新服务和功能。


而在所有的云服务中,GPU 云服务器对 AI 基础设施建设的意义最为关键,它极大地提升了 AI 基础设施的处理能力。通过集成 GPU 云服务器,AI 基础设施能够更高效、更快速地完成训练和推理任务,从而加速 AI 项目的研发进展。这不仅能使企业抢占市场先机,还能在获得大量数据后进一步优化自身模型,积累更为丰富的数据库。


以阿里云 GPU 云服务器为例,其神龙架构支撑裸金属实例,实例内 GPU 实现全速 P2P 功能,集合通信能力提升 20%,在微调和多卡推理过程提升性能 6%。在支持包年包月和按量计费的两种低成本购买方式的情况下,阿里云 GPU 云服务器还提供了针对 AI 应用部署及优化的免费工具,实现面向训推场景的 GPU 性能优化,其在同等硬件条件下,LLM 大模型推理性能提升超 100%,LLM 大模型微调训练性能提升 50%。



去年一经上线就出圈爆火的 AI 应用“妙鸭相机”,随访问量的激增,对 GPU 服务器的算力需求激增至数千台规模。阿里云 GPU 云服务器为其提供了训推一体的解决方案,助其缩短 19% 的端到端微调时间,推理效率提升 100%。训练时间的减少,不仅意味着成本的降低,也意味着妙鸭 C 端客户更短的等待时间和更好的体验。


二、云服务创新:AI 时代 IT 基础架构变革的雷霆引擎


深度学习自 2012 年在 AI 领域确立其核心地位之后,尽管为应用带来了显著赋能,但很长一段时间里并未彻底改变应用研发范式。直至云服务的崛起,数字化基础设施的格局发生了根本性变化,计算、网络和存储的虚拟化使得算力成为基础服务,云原生架构的应用研发模式大幅提升了开发迭代效率。后来随着大模型技术的广泛应用,大模型以 AI 原生应用的形式深入多场景,并转化为一种通用的服务 MaaS,降低了 AI 技术的落地门槛。而作为基础设施的云服务,也在大模型发展的推动下,产生了云原生“AI 化”的转变,重塑了云计算产业格局。


这种转变不仅体现在 AI 技术作为服务(MaaS)的广泛应用上,更在基础设施层面推动了 GPU 云服务器的革命性转变。面对高速演进的 AI 技术对 GPU 资源提出的愈来愈高的要求,基于云原生“AI 化”的趋势,以确保资源能够按需分配、高效利用。当前,以容器为代表的云原生技术正在完成进一步创新,IT 系统需要更加模块化和灵活以适应 AI 应用的迭代和更新。


在 AI 应用研发场景中,当 GPU 云服务器被多个用户或应用共享时,特别是在资源需求不均或变化频繁的情况下,资源分配和调度可能不够灵活,导致 GPU 利用率低下。此时便可以使用类似于阿里云容器服务 Kubernetes 版 ACK 提供的云原生技术来解决问题。ACK 丰富的 GPU 集群弹性伸缩能力可以帮助企业灵活应对工作负载变化,根据资源使用情况,企业可以快速动态调整容器数量,数分钟内扩展至上千节点。容器所具备的环境隔离性保证了 AI 模型推理的稳定性和一致性,减少因环境差异导致的错误和冲突,可以加速模型的迭代和部署过程。


阿里云 ACK 提供“云原生 AI 套件”,企业可以充分利用云原生架构和技术,在 Kubernetes 容器平台上快速定制化构建 AI 生产系统,并为 AI/ML 应用和系统提供全栈优化。在实际 AI 推理场景下,基于标准 Kubernetes 提供的组件化能力,同时通过共享 GPU 方案,对比自建 GPU 集群算力利用率提升 100%。除此之外,通过数据加速 Fluid,AI 推理场景数据访问资源成本可以降低 10 倍左右。更值得一提的是,这套云原生 AI 套件自 6 月 6 日起全面免费,企业成本直接降为 0!



除了云原生架构的迭代创新,数据作为 AI 技术的“食粮”,其存储架构也在发生变革。随着数据量的激增,传统的存储解决方案已经无法满足 AI 对于高吞吐量和低延迟访问的需求。因此,可以在单个全局命名空间中无限扩展到数十 PB 甚至更多、可以为 AI 工作负载提供理想的存储解决方案——对象存储技术被广泛应用并持续迭代。


在目前的 AI 推理场景中,大家常会遇到的问题是,模型推理需要拉取加载模型文件,在调试过程中还需要不断切换新的模型文件进行尝试,而且随着模型文件的不断增大,推理服务器拉取模型文件所需时间越来越长。


面对这个挑战,许多企业将阿里云对象存储 OSS 作为解决方案。对比传统存储,OSS 的吞吐能力超过 10Tbps,从 OSS 下载 270GB 模型文件用时降低至 21s,通过低延时高吞吐的方式快速把模型文件传输到容器节点,减少 GPU 等待时间,可大大提升推理效率。此外,阿里云 OSS 加速器在 AI 推理环节支持 SD、Transformers 等多种推理框架,性能最高可 burst 至 40GB/s。



可以说,大模型的发展标志着 AI 技术进入了一个全新的阶段,它不仅仅是对以往 AI 技术迭代的延续,更是对底层 IT 基础设施和上层应用开发模式的一次深刻重构。云服务作为 IT 基础架构的核心部分,必须承担起引领创新变革的重任。


三、生态协同:云计算与 AI 深度融合的超级加速器


如今,大模型已经开始卷价格,对比云计算用了 16 年才开始卷价格,AI 市场厮杀的激烈程度不言而喻,甚至 AI 已经让卷到"很卷"的云计算变得“更卷”。


于此,云厂商不仅需要有强大的技术研发能力,更需要构建一个健康、活跃的生态,以实现资源的优化配置和价值的最大化,而创新就是云计算飞轮持续旋转的核心动力。AI 借助云计算的强大算力处理海量数据,实现智能化应用;云计算则为 AI 提供稳定的技术底座,促进技术再升级。两者形成的良好技术生态共同助力着全产业智能化发展,吸引着更多开发者、企业参与技术创新。


通过生态协同,云厂商能够与上下游企业共同产品和服务的持续创新;通过与合作伙伴的深度合作,实际业务场景下的需求正在驱动着云厂商技术迭代与创新。


这种繁荣的生态系统为阿里云带来了更多的创新服务和应用,从而铺建了其在行业里的领先地位。通过合作伙伴的支持,阿里云为客户提供更加丰富多样的云计算产品,其“先进、稳定、易用、高性价比”的优势也助力许多企业客户获得了业务成功。这个过程中,阿里云积累了丰富的市场经验,同时拥有了庞大的计算资源和海量数据,为 AI 大模型的研发提供了坚实的后盾,从而走在了大模型厂商前列。


阿里云在 AI 大模型研发与云计算领域的双重领先优势,让其在 AI 基础设施构建方面拥有了得天独厚的条件。不仅为 AI 基础设施的构建提供了坚实的基础,更在不断地将这一优势转化为实际的产品和服务。而且,阿里云非常清楚——除了技术具有前沿性外,如何将这些技术有效地应用到实际场景中以解决实际业务问题,同样至关重要。


于是,基于深厚的 AI 技术实力和深刻的市场洞察,阿里云正在持续为企业提供既领先又容易落地的 AI 基础设施解决方案。为了帮助企业和开发者在多达数百款云产品中,根据自身业务问题快速定位关键产品需求,阿里云还推出了明星云产品推荐计划“飞天星品”,点击本文文末的"阅读原文"可查看飞天星品的页面详情大家可以在“飞天星品”上解决云产品选型难、使用方式复杂、场景定位模糊等问题,轻松选到最好用、最高性价比、最适合自己的云产品。


不仅如此,今年 618 阿里云首度推出 5 亿算力补贴,并带来多项 200 余种热门云产品折上折活动,助力更多企业、创业者与开发者可以使用普惠算力,更好地上云创新。


登录阿里云官网,获取算力补贴


展望未来,云计算和 AI 技术的融合将进一步加速,共同推动数字化转型的浪潮。云计算的飞轮已经加速旋转,它带来的不仅仅是成本的降低和效率的提升,更是业务模式的创新和生态的构建,AI 技术也因此将得到更加广泛的应用和普及。我们期待看到更多的企业能够利用阿里云产品和服务,实现业务的快速增长和创新发展,共同推动 AI 技术的更快发展。

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2024-06-27 15:255385
用户头像
鲁冬雪 InfoQ 策划主编

发布了 349 篇内容, 共 216.8 次阅读, 收获喜欢 282 次。

关注

评论

发布
暂无评论
发现更多内容

转行软件测试跳槽到新公司,工作如何快速上手?

伤心的辣条

Python 程序员 软件测试 自动化测试 接口测试

想学好软件测试,这些软件必不可少

伤心的辣条

Python 程序员 程序人生 软件测试 自动化测试

想秀你就秀!环信MVP招募计划正式启动,诚邀您加入!

环信

IT 即时通讯 IM 技术分享

Notebook在复现数据科学研究成果中的丝滑使用

Baihai IDP

AI notebook 数据科学 科研成果

35人首次上榜、行者皆勇者——创业邦3040新青年创投峰会圆满落幕

创业邦

如何高效的进行接口测试?【工具篇】

Liam

测试 Postman 接口测试 API接口管理 接口测试工具

测试员该知道的软件测试流程,你都知道吗?

伤心的辣条

Python 程序员 软件测试 IT 自动化测试

Executor

急需上岸的小谢

6月月更

工业互联网生态建设加速,小程序容器技术跨端开发特性助力突围

Speedoooo

跨端开发 软件安全 降本增效 敏捷迭代 多端运行

GPU渲染全解读:GPU渲染器的发展与对比

Finovy Cloud

渲染器 GPU服务器

打造软件供应链安全平台,「安势信息」完成数千万元天使轮融资

安势信息

信用卡业务愈卷愈烈,银行机构如何突围?

易观分析

信用卡业务

InnoDB体系架构

龙空白白

MySQL InnoDB

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

小红书技术REDtech

Transformer CVPR2022 行人重识别

UI自动化测试框架搭建-优化企业微信通知

伤心的辣条

Python 程序员 软件测试 自动化测试 UI自动化

博云《应用上容器指南》首发!详解应用容器化改造

BoCloud博云

容器 云原生 容器云 应用

养老金融政策频出,市场有多大?

易观分析

养老消费

剑指 Offer 58 - II. 左旋转字符串

未见花闻

6月月更

国际SaaS企业有哪些机遇和挑战

ToB行业头条

俄航天局局长:外星生命或正在研究人类文明

Dylan

俄罗斯 外星人 航天局

力扣每日一练之二分查找Day7

京与旧铺

后端 6月月更

剑指offer系列——剑指 Offer 49. 丑数

未见花闻

6月月更

Vue-8-计算属性和侦听属性

Python研究所

6月月更

前端工程化:保姆级教学 Jenkins 部署前端项目

伤心的辣条

Python 程序员 jenkins 自动化测试 接口测试

安势信息加入OpenSSF (开源安全基金会), 共建软件供应链安全

安势信息

Linux DevOps SCA工具 opensource

云上360行丨深耕快消品行业数字化转型,纷享销客与华为云合力同行

华为云开发者联盟

人工智能 modelarts 快消品 纷享销客

直播回顾 | 传统应用进行容器化改造,如何既快又稳?

BoCloud博云

云原生 容器云 应用

OSPO如何帮助保护你的软件供应链

安势信息

开源 DevOps 开源社区 SCA opensource

三星堆重大发现!信息量巨大

Dylan

三星堆 四川省 文物

3 个技巧来破解你可以立即使用的 Flutter 生产力!

坚果

6月月更

实时数仓实战

鲸品堂

数据 实时数仓

AI 激战进入下半场,“推理”还卷得动吗?_阿里巴巴_鲁冬雪_InfoQ精选文章