QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

通用大模型不是万金油,什么才是解决产业问题的最优解?

  • 2023-06-26
    北京
  • 本文字数:4514 字

    阅读完需:约 15 分钟

通用大模型不是万金油,什么才是解决产业问题的最优解?

2023 年的 AI 产业可以用风起云涌来形容。ChatGPT 的横空出世让生成式 AI 技术一夜之间红遍全球,很多从未了解过人工智能的普通人也开始对大模型产生了浓厚的兴趣。媒体、调研机构纷纷推出长篇专题,论证 ChatGPT、StableDiffusion、Midjourney 等文本和图像大模型会对哪些行业产生颠覆式影响;甚至有很多员工和企业开始利用这些大模型提升日常工作中的生产力,乃至取代人类岗位。毫无疑问,2023 年将是大模型技术开始爆发的转折点,一场影响深远的技术革命正在徐徐拉开帷幕。


在 AI 行业内,虽然 OpenAI 凭借 ChatGPT 暂时处于领先地位,但巨大的市场前景已经吸引了一大批企业与科研机构加入大模型的战场。谷歌、Meta、百度、阿里、字节跳动、腾讯、京东、科大讯飞、盘古……一众互联网巨头、创业公司与院校纷纷发布了自己的大模型服务或计划。ChatGPT 掀起了一场 AI 军备竞赛,稍有实力的互联网企业都主动或被动地加入其中,希望牢牢把握住这一罕见的历史机遇。


突然爆发的大模型热潮也让业界对硬件基础设施的需求飙升。千亿甚至万亿级参数的超大模型需要庞大的算力支撑,运营一个典型的大模型服务一般需要数千台多 GPU 服务器。如此大的算力需求给企业带来了沉重的负担,而核心硬件的获取难度则让局面雪上加霜。


另一方面,像 ChatGPT 这样的超大通用模型在行业实践中的应用前景也受到了质疑。很多观点认为,在垂直行业中,专门为领域知识优化的中小模型可能有着更好的表现。这些中小模型所需的训练成本相比通用大模型大幅降低,并且也不会高度依赖昂贵、难以获取的 GPU 硬件,可以使用带有 AI 加速硬件的新一代 CPU 与专用的 AI 加速芯片等,更加适合行业特定用途与中小企业使用。

AI 生产力,GPU 并非唯一选项


在 AI 领域,GPU 经常被视为唯一的计算硬件选项。凭借庞大的并行计算资源,GPU 能够快速处理深度学习过程中的矩阵运算,大幅提升模型的训练和推理速度。


但由于 GPU 价格高昂、内存容量受限、供应链问题、扩展能力不足等问题,企业与开发人员开始意识到,他们可以使用 CPU 这样的解决方案,在一些 AI 生产力场景中获得更高的性价比。例如,Hugging Face 公司的首席 AI 布道者 Julien Simon 最近演示了的 70 亿参数语言模型 Q8-Chat 就运行在一个 32 核心的第四代英特尔® 至强® 可扩展处理器上,速度比 ChatGPT 快得多。Q8-Chat 是基于 MosaicML 公司开源的 MPT-7B 语言模型,并充分利用了第四代英特尔® 至强® 可扩展处理器的 AI 加速引擎来提升性能。由于 CPU 具有很好的串行计算能力,在更多依赖串行或混合计算的 AI 任务中,CPU 往往具有比 GPU 更好的性能表现。


此外,CPU 虽然在模型训练场景中的速度往往无法与 GPU 相提并论,但在推理场景中有能力提供类似的性能水平。与此同时,CPU 易于扩展内存、软件兼容与扩展能力优秀的特性,也让企业在选择 AI 推理系统的软件栈时有了更高的灵活度。正因如此,包括美团、阿里云、Meta 在内的互联网头部企业都在探索利用 CPU 提升 AI 推理与部分场景的训练性能、降低 AI 硬件采购成本、减小对特定 AI 软件栈依赖的路径。在 AI 行业,CPU 的重要性正在与日俱增。

从推荐系统到视觉推理,CPU 如何在 AI 领域大放异彩


谈到 AI 硬件,CPU 长期以来扮演的都是"绿叶"的角色。开发者一般只关心 CPU 能够支持多少 GPU 计算卡,是否能长期稳定运行,而基本不会考虑用 CPU 来承载 AI 应用的算力需求。原因也很简单,相比 GPU 来说,CPU 的并行算力实在太过低下了。


但这种局面在今天出现了转机。2022 年底,搭载 AMX 加速技术的第四代英特尔® 至强® 可扩展处理器上市,CPU 第一次在很多应用场景中获得了与高端 GPU 媲美的 AI 性能。AMX 可以被看作是 CPU 核心中专为 AI 计算设计的一种加速模块,其专为 INT8 与 BF16 计算优化,相比传统的 AVX 指令集可以提供高出一个数量级的单周期指令吞吐性能。在 AMX 的帮助下,第四代英特尔® 至强® 可扩展处理器的 AI 运算能力大幅提升,在部分领域中取得了相比 GPU 更高的性价比表现。


推荐系统


推荐系统是非常重要和普遍的人工智能应用,其通常包括知识库、主题模型、用户 / 视频画像、实时反馈 / 统计、推荐引擎等基础组件,能够对于海量数据进行分析,并根据用户的偏好为用户提供个性化的内容与服务,助力提升用户价值。


现代化推荐系统对于 AI 算力有着较高要求。阿里巴巴作为全球最大的电子商务巨头,其核心推荐系统需要实时处理天猫和淘宝全球庞大客群每秒数亿级别的请求。该系统需要确保 AI 推理任务的处理时间在严格的时延阈值范围内,从而保障用户体验;同时系统需要确保一定的推理精度,从而保障推荐质量。为了实现性能与成本的平衡,阿里巴巴最近开始在推荐系统中采用了 CPU 处理 AI 推理等工作负载,并选择了第四代英特尔® 至强® 可扩展处理器进行性能优化。


阿里巴巴与英特尔合作,利用英特尔 oneAPI 深度神经网络库,将 AMX 加速引擎应用到了核心推荐模型的整个堆栈上。在 AMX、BF16 混合精度、8 通道 DDR5、更大高速缓存、更多内核、高效的内核到内核通信和软件优化的配合下, 主流的 48 核第四代英特尔® 至强® 可扩展处理器可以将代理模型的吞吐量提高近 3 倍,超过主流的 32 核第三代英特尔® 至强® 可扩展处理器,同时将时延严格保持在 15 毫秒以下。


这一表现已经媲美阿里巴巴采用的高端 GPU 方案,同时在成本、灵活性方面有更强优势。阿里巴巴的这一方案已经投入生产实践,经历了双十一购物节等峰值负载压力的考验。



视觉 AI 推理


当前,由人工智能赋能的计算机视觉已经成为企业获取数据洞察,推动业务智能化转型的重要途径。视觉 AI 解决方案能够利用增强型深度学习神经网络,以更精密的方式获取数据,将分析能力提升到全新水平,从而帮助企业提升工作效率、降低成本、增加收入并提高客户满意度。随着业务的发展与视觉数据的爆发式增长,企业希望能够在加速计算视觉 AI 模型训练和提高 推理性能的同时,获得更高的投资收益。


作为知名的科技零售公司,美团高度重视以视觉 AI 技术创新赋能餐饮、出行、旅游、购物、娱乐等多种业务。美团业务正在高速增长,越来越多的应用需要通过视觉 AI 构建智能化流程。为此媒体需要在确保推理精度的同时,提升视觉 AI 推理的吞吐率;同时,对于低流量长尾模型的推理服务,美团发现采用 CPU 推理具有更高的成本效益;CPU 方案也具有更高的灵活性、敏捷性,能够更好地满足长尾化场景需求。


为了加速视觉 AI 推理,美团利用第四代英特尔® 至强® 可扩展处理器及其 AMX 加速引擎,通过将模型从 FP32 转化为 BF16 等方式,将主流视觉模型的推理性能提升 3-4 倍。结合动态扩缩容等头部服务优化策略,美团将线上资源效率整体提升 3 倍 以上,节省 70% 的服务成本。值得注意的是,优化之后的精度损失大部分可以控制在 0.01%-0.03% 之间,可以满足美团的苛刻要求。



阿里巴巴与美团的实践经验,证明 CPU 在 AI 产业中已经开始摆脱"绿叶"定位,具备了承载 AI 应用大规模并行计算需求的能力。上述案例中的关键在于,企业并不需要为新一代 CPU 带来的 AI 计算能力付出额外成本。CPU 的更新换代有着相对固定的周期,企业只需按部就班采购新一代至强可扩展处理器,即可获得大幅增强的 AI 计算能力,这对 AI 热潮中面对沉重成本压力的企业而言无疑是非常诱人的。在类似推荐系统、视觉 AI 这样的行业垂直场景中,CPU 可以提供媲美高端 GPU 的性能,同时成本大幅下降,灵活度、可扩展性等指标也显著改善。

远水解不了近渴的通用大模型


阿里巴巴与美团的实践经验已经证明,搭载 AMX 加速引擎的新一代 CPU 可以在垂直行业类 AI 问题上取得很好的性能表现。


在大模型时代来临的同时,AI 产业的实践应用并不会被超大规模的通用大模型一统天下。大量实践场景中,企业所需要的仍然是易于获取、部署,成本较低,对特定领域有着更出色效果的中小 AI 模型。相比之下,搭载 AMX 加速引擎的英特尔® 至强® 可扩展处理器就是应对这些领域 AI 模型训练和推理需求的理想选项。


其次,CPU 的架构设计天然就具备最好的通用性。基于 CPU 的 AI 软件技术栈可以自由升级,基本不受 CPU 特性的局限。新一代 AI 技术栈也可以无缝运行在上一代 CPU 上,使企业可以充分利用老旧硬件的价值。结合 CPU 容易升级内存容量的优势,企业只需购买更多内存,就可以让现有的 CPU 服务器支持更多参数的领域模型,这无疑会大大减轻企业的成本负担。


此外,CPU 架构的通用性意味着它可以方便地支持不同种类的 AI 加速硬件。企业既可以选择单纯的 CPU 加速方案,也可以按需购买 GPU 或者其他类型的专用 AI 加速硬件(如 NPU)。这里就不得不提到英特尔为软件开发者提供的完整 AI 开发工具链了。例如,TensorFLow 2.9 默认附带了英特尔 oneAPI 神经网络库优化,开发者使用新版 TensorFlow 时可以自动应用英特尔的优化方案。对于 AMX 加速引擎,开发者也不需要做很多额外工作就能充分利用 AMX 带来的强大性能。例如,美团就结合了英特尔 PyTorch 扩展(英特尔 IPEX)来加速 PyTorch 性能,方便地调用了 AMX 引擎的 INT8 与 BF16 澎湃算力。当开发者在服务器中插入 GPU 或其他 AI 专用加速硬件后,英特尔的软件栈还可以让他们轻松实现跨硬件架构的 AI 代码编写,使 AI 应用能够充分利用不同硬件的加速性能。


在 AI 专用加速芯片方面,英特尔也在 2022 年就推出了用于深度学习训练的第二代 Gaudi® 处理器:Gaudi2® 。Gaudi2® 是英特尔公司旗下 Habana® Labs 的产品,基于 7 纳米制造工艺,以 Habana® 研发的高能效架构为基础。该处理器在运行 ResNet-50、BERT Phase-1、Phase-2 等计算机视觉和自然语言处理工作时的训练性能可达高端 GPU 的两倍之多。无论用户是在云端还是在本地服务器上使用 Gaudi2®,都能获得相比 GPU 解决方案提升 40% 左右的性价比。


Gaudi2® 可以作为搭载 AMX 加速引擎的英特尔® 至强® 可扩展处理器的良好补充与扩展。Gaudi2® 可以无缝加入现有的英特尔 AI 软件栈中,用户为至强处理器编写的 AI 代码很容易就能扩展到 Gaudi2® 上。当用户需要更高的 AI 场景性能时,只需购买 Gaudi2® 处理器安装在至强服务器的 PCIe 插槽上,就能实现系统的无缝升级,同时利用 AMX 加速引擎与 Gaudi 2® 专用加速芯片带来的诸多优势。


搭载 AMX 加速引擎的英特尔® 至强® 可扩展处理器、Habana® Gaudi2® 专用 AI 处理器与英特尔 AI 软件栈的组合,给正在为进军大模型领域而产生严重算力焦虑的广大企业带来了走出困境的绝佳路径。

写在最后


在数字经济的浪潮中,人工智能技术的加持已经成为企业的必选项。从互联网到传统工业,各行业对大模型的需求持续走高。在此背景下,企业更需要注重考虑技术研发的投入产出比,在切实解决产业问题的同时,也要将经济性纳入考量范畴。


着眼于未来,当企业有训练大模型的诉求时,搭载 AMX 加速引擎的英特尔® 至强® 可扩展处理器、Habana® Gaudi2® 专用 AI 加速器的组合,结合英特尔易用的统一 AI 软件栈,同样可以为帮助客户去克服目前大模型部署和使用中的问题。考虑到这些优势,未来会有越来越多的企业与行业应用转向英特尔解决方案,AI 产业也将迎来更加多样化、更有活力的软硬件竞争格局。



点击链接查看英特尔中国 AI 加速实践手册,了解更多 AI 市场趋势及主要应用场景。

2023-06-26 16:523451

评论

发布
暂无评论
发现更多内容

浅谈 WebRTC 的 Audio 在进入 Encoder 之前的处理流程

阿里云CloudImagine

阿里云 音视频 WebRTC 音频技术 音频

【得物技术】如何测试概率性事件-二项分布置信区间

得物技术

测试 开发 概率 得物 得物技术

浅谈数据仓库质量管理规范

数据社

数据仓库 数据质量管理 七日更

25道mybatis面试题,不要说你不会

田维常

mybatis

5年Java高工经验,我是如何成功拿下滴滴D7Offer的?

Java架构追梦

Java 学习 架构 面试 滴滴

jenkins实现接口自动化持续集成(python+pytest+ Allure+git)

行者AI

我的 500 张技术配图是怎么画的?

小林coding

程序人生 画图软件

json处理

Isuodut

3面抖音犹如开挂,一周直接拿下offer,全靠这份啃了两个月「Java进阶手册」+[Java面试宝典]

编程 程序员 面试 计算机

iOS面试基础知识 (五)

iOSer

ios 面试 底层知识

接口自动化传值处理

行者AI

小程序市场的「App Store」来了!你准备好吃“螃蟹”了吗?

蚂蚁集团移动开发平台 mPaaS

小程序生态 mPaaS appstore

得物App亮相QCon全球软件开发大会,分享百倍增长背后的技术力量

得物技术

效率 技术 得物 得物技术 Qcon

盘点 2020 |协作,是另外一种常态

冯文辉

领域驱动设计 DDD 协作 远程协作 盘点2020

Native 与 JS 的双向通信

Minar Kotonoha

如何从危机中提炼总结,做好2020年的复盘?

CECBC

复盘 经济

数字货币交易所系统开发,区块链交易所搭建

薇電13242772558

区块链 数字货币

Locust快速上手指南

行者AI

为什么要在以太坊上构建去中心化缓存层?到底要怎样做呢?

CECBC

以太坊

接口自动化测试的实现

行者AI

腾讯五面、快手三面已拿offer(Java岗位),分享个人面经

程序员知识圈

Java 程序员 架构 面试 编程语言

软件测试中需要使用的工具

测试人生路

软件测试

规划算法

田维常

算法

观察者模式

soolaugust

设计模式 观察者模式 七日更

15天成功拿到阿里offer 我是如何逆袭成功?全靠“Java程序员面试笔试通关宝典”真够可以!

比伯

Java 编程 架构 面试 程序人生

《迅雷链精品课》第十三课:PBFT算法

迅雷链

区块链

双循环背景下的全球供应链机遇与挑战

CECBC

供应链物流

高光时刻!美团推出Spring源码进阶宝典:脑图+视频+文档

996小迁

spring 源码 架构 笔记

XDAG技术详解1

老五

排查指南 | mPaaS 小程序被卡在了三个蓝点

蚂蚁集团移动开发平台 mPaaS

小程序 问题排查 mPaaS

AOFEX交易所APP系统开发|AOFEX交易所软件开发

系统开发

通用大模型不是万金油,什么才是解决产业问题的最优解?_AI&大模型_郑思宇_InfoQ精选文章