写点什么

云上「算力浪费」,正在掣肘企业应用落地

  • 2024-12-26
    北京
  • 本文字数:2892 字

    阅读完需:约 9 分钟

大小:1.51M时长:08:47
云上「算力浪费」,正在掣肘企业应用落地

投入算力,真的能换来利润吗?这是每个想“入局”大模型的企业都会思考的问题。


人工智能行业一直困于成本,无论从模型训练到推理,都充满了“烧钱”的气息。无法避免的高昂算力,成为企业入局大模型的“铁门槛”。


据多方数据统计,训练 GPT-4 这样的前沿模型系统,其成本预估在 7800 万美元;而在推理层面,企业私有化部署大模型,成本仍高达数百万元;基于开源大模型进行微调+RAG 策略尽管更便宜,但安全性难以保障,更别提在后续使用中还会涉及的持续算力消耗。


而与高昂算力同时存在的,是算力利用率极低的行业现状。


据相关消息,OpenAI 在 GPT-4 的训练中,其算力利用率只有 32%至 36%,大模型训练的算力有效利用率不足 50%。这是因为在训练周期内,GPU 卡并不能随时实现高资源利用,在一些训练任务比较小的阶段,还会有资源闲置状态。而在模型部署阶段,由于业务波动和需求预测不准确,许多服务器往往处于待机或低负载状态。算力浪费现象极为严重。


困局背后,是云计算基础设施建设存在的滞后性:传统的云基础设施,并不完全适配当今大模型训练及推理的需求。所以过去两年,主流云计算服务商一直将产品与算力更新当做重点,这种“错位”导致了相当量级的资源浪费,以及成本的增加。


一方面,训练 AI 模型所需的算力,还正在以高达每年 10 倍的速度增长;另一方面,云计算的发展速度不仅受制于摩尔定律,还牵扯到从底层到顶层的整个服务架构,并不能靠简单地堆砌 GPU 实现。


面对这些冲突,云厂商们试图通过跨界合作来完成创新,其中火山引擎与英特尔的联手便是一个典型案例。


英特尔握手火山引擎,终于拿出了“杀手锏”


英特尔作为 x86 的王者,多年来深耕通用处理器,几乎从底层定义了 PC 时代。在人工智能热潮来临之前,英特尔预见了传统单一计算架构已达到性能和功耗的瓶颈,而将异构计算作为应对 AI 时代算力挑战的关键战略。英特尔提出的 XPU 战略,便是希望整合 CPU、GPU、ASIC、FPGA 等领域的产品线,使 CPU 中不同核心负责不同工作负载,让计算架构能更有效地应对场景化数据。


在 2024 火山引擎 FORCE 原动力大会•冬上,英特尔介绍了至强® 6 性能核处理器,并携手火山引擎共同发布了搭载该处理器的火山引擎第四代通用计算实例 g4il,希望通过优化云服务的底层架构,帮助用户应对多样化的需求。


对比上一代,通用计算实例 g4il 搭载英特尔® 至强® 6 性能核处理器(代号 Granite Rapids,简称 GNR),计算密度大幅提升;同时,得益于采用了双单路架构,使得“爆炸半径”大幅降低,有力保障稳定性;此外,基于火山引擎自研 DPU 板卡和 Hypervisor 等组件,g4il 也实现了软硬一体的深度协同。


g4il 支持多种云盘类型,包括高效型云盘、极速型 SSD PL0,极速型 SSD FlexPL,吞吐型 SSD TL0;在网络层面,g4il 支持采用 jumbo frame(巨型帧)来进行大包传输,可有效减少网络传输耗时和提升网络效率。


为应对 AI 业务的固有特点,g4il 也全面提升了 I/O 能力,整机网络带宽提升 100%,整机存储带宽提升 100%,整机 IOPS 提升 66%,整机 PPS 提升 38%;在 CPU 方面,内存通道为 12CH,支持高达 6400 MT/s 的 DDR5 内存,L3 缓存提升了 60%。此外,g4il 在 AMX int8 和 bf16 的基础上新增支持 fp16 指令集,可以满足更多精度的 AI 运算需求,相比 AVX512 有多达 5 倍算力提升。


综合来看,通用计算实例 g4il 能以更为流畅、高效、稳定的计算体验,有效帮助用户应对 AI 场景及传统复杂运算作业,尤其在数据库应用、Web 应用和视频转码等场景下,可实现最高 20%的性能提升。


据英特尔提供数据显示,镜像平台提供开源大模型在 g4il 实例验证,以及大模型与 embedding、向量数据库等组合验证,并为 g4il 实例提供企业知识库检索、视频检索分析、数据分析助手、智能体/工作流编排等一键式部署方案,一杯咖啡的时间可以让一个知识库助手应用就绪。


用户无需额外购买高性能计算产品,仅需极低的成本即可上手大模型,并且能够轻松部署到多个使用场景中,大幅降低了 AI 开发的门槛。



此外,为了进一步提供高性价比弹性算力,火山引擎基于与字节跳动内外复用的百万核潮汐资源池,推出了业界首创的“弹性预约实例”售卖模式。这种模式支持免费提前预约,到点资源自动交付,在为弹性需求提供资源确定性保障的同时,相较于常规的按量计费实例,还能够节省 33%以上的算力成本。从内外并池到机型统一,这背后也有英特尔® 至强® 系列处理器的强劲助力。



英特尔全方位赋能,做新时代“幕后功臣”


英特尔针对 AI 模型训练、推理等应用场景,以及在硬件增强的安全特性方面,推出了很多自研技术,并内置于英特尔® 至强® 6 中,如英特尔® 高级矩阵扩展(英特尔® AMX)和英特尔® 信任域扩展(英特尔® TDX)。


英特尔® AMX 通过在 CPU 中加入专门用于矩阵运算的硬件单元,以增强对大模型的支持。包括了一组二维寄存器(称为 TILES),以及一个能够对这些寄存器进行操作的加速器 TMUL(Tile Matrix Multiply Unit)。TILES 寄存器可以存储二维矩阵数据,并且 TMUL 负责执行高效的矩阵乘法运算,可以在单个时钟周期内完成大量 INT8、BF16、FP16 精度的操作,极大地提升了每秒浮点运算次数。在文生图和 LLM 场景下,火山引擎成功验证了基于 AMX 的火山引擎通用云服务器在 AI 推理性能上的显著提升。


生成式 AI 兴起后,安全问题再次回归大众视野,用户担心 Gen AI 对骇客行为的升级,英特尔® 信任域扩展(英特尔® TDX)对用户的数据和应用提供端到端的保护。其核心在于创建一个称为受信任域(TD, Trusted Domain)的环境,这是一个被硬件严格隔离的虚拟机实例。


与传统的虚拟机(VM)不同,TD 不仅能够抵御来自同一物理主机上其他 VM 或应用程序的攻击,还可以防止虚拟机管理器(VMM)/虚拟机管理程序以及平台上的任何非 TD 软件对其造成的影响。这意味着即使云服务商本身也无法访问 TD 内部的数据,极大地提升了隐私性和安全性。


TDX 的另外一个特性是提供远程认证功能,使工作负载所有者能够验证服务器的可信状态,增强对虚拟化环境的信任。


这些技术特点意味着,在云多租户的环境中,TDX 可以保障不同租户之间严格隔离,简化安全部署。


在 AI 推理方面,英特尔还推出了基于 GNR+MRDIMM 内存优化的全新方案,这种方案是火山引擎对英特尔® 至强® 6 性能核处理器进行了深度调优,带来更大内存带宽和更强 CPU 算力,并在测试中显示,可以大幅提升 LLM 性能。


至强® 6 性能核处理器采用 Intel 3 制程工艺,其特点在于采用单元架构,拥有独立的 IO 单元和内核单元。这种设计使其能够与 GPU 或专用的 AI 加速器高效协作,真正发挥出作为数据中心的“指挥官”,也就是就是机头(head-node)CPU 或主控 CPU 的优势,对比上一代处理器,至强® 6 可以提供更强的 CPU 算力。


MRDIMM 是通过使用高速多路复用器或数据缓冲区,同时读取内存 Bank 并将数据传输到 CPU。更大的内存带宽,使它特别适用于人工智能、高性能计算和实时分析等应用场景。


纵观 2024 火山引擎 FORCE 原动力大会•冬的这次发布,从通用计算实例 g4il 降低 AI 应用的开发门槛,到“弹性预约实例”售卖模式降低算力成本。面对当下全新的算力需求,英特尔的至强® 6 性能核处理,AMX、TDX 等内置加速器、以及目前“独占”的 MRDIMM 技术,正在为大模型落地带来强力的支持。


作为头部芯片厂商,英特尔正在上浮逐步进入业务场景,赋能千行百业实现业务革新。

2024-12-26 16:209079

评论

发布
暂无评论
发现更多内容

架构师训练营第2期 第10周总结

月下独酌

极客大学架构师训练营

全1子串算法求解、单元测试的必要性论述 John 易筋 ARTS 打卡 Week 32

John(易筋)

ARTS 打卡计划 全1子串算法求解 单元测试必要性

海纳百川无所不容,Win10环境下使用Docker容器式部署前后端分离项目Django+Vue.js

刘悦的技术博客

Python Docker 容器 镜像 部署

共享单车系统搭建

Geek_a620db

Week10 作业

evildracula

架构师训练营 第3期 第5周 作业和总结

ihiming

指尖上的警务,打造微警务管理服务平台

t13823115967

智慧警务系统开发 微警务

关于Dubbo的原理

皮蛋

程序员的bug修复宝典

程序员 经验总结 bug修复

NO.002-Java并发编程之多核硬件架构

葛一凡

操作系统 设计原则 硬件架构

《Python数据科学:关于使用Python处理数据需要了解的终极指南》PDF免费下载

计算机与AI

Python 数据科学

第 5 周作业提交

Binary

极客大学架构师训练营

十、服务分解

Geek_28b526

使用 Serverless 创建一个简单的短网址服务

donghui

flask Serverless Lambda Store

生产环境全链路压测建设历程 21:某快递 A 股上市公司的生产压测案例之彩蛋 2 中篇

数列科技杨德华

全链路压测 七日更

第十周作业总结

hunk

极客大学架构师训练营

架构师训练营 - 大作业一

lucian

架构师训练营第2期 第10周作业

月下独酌

极客大学架构师训练营

掌趣电竞系统开发搭建

Geek_a620db

第十周作业

hunk

极客大学架构师训练营

深入解析SpringMVC核心原理:从手写简易版MVC框架开始(SmartMvc)

Silently9527

Java mvc springmvc

6. 抹平差异,统一类型转换服务ConversionService

YourBatman

Spring Framework 类型转换 Converter ConversionService

智能合约系统软件开发|智能合约APP开发

系统开发

数据可视化平台搭建,警务实战平台大数据应用

t13823115967

数据可视化 可视化数据分析搭建 警务实战平台

物联网方面的竞赛有那些?

IoT云工坊

第 10 周 系统架构总结

心在那片海

第 5 周学习总结

Binary

极客大学架构师训练营

数据库范式与反范式设计,是一门艺术

架构精进之路

数据库 范式

面试官:说说操作系统微内核和Dubbo微内核?

yes

dubbo 操作系统 微内核

Week 10 模块分解

evildracula

学习 架构

架构师训练营 - 大作业二

lucian

云上「算力浪费」,正在掣肘企业应用落地_英特尔_雷雨亭_InfoQ精选文章