写点什么

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持

  • 2023-04-20
    北京
  • 本文字数:3516 字

    阅读完需:约 12 分钟

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持

4 月 18 日,火山引擎在其举办的“原动力大会”上发布了自研 DPU、分布式云原生平台、多云安全、多云CDN、veStack 混合云平台等等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。

 

“国内有数十家做大模型的企业,大多已经在火山引擎云上”,火山引擎总裁谭待认为,大模型不会一家独大。与其他云厂商力推自家大模型不同的是,火山引擎将接入多家大模型深度合作,为企业和消费者提供更丰富的 AI 应用。

 

另外在会上,火山引擎宣布与字节跳动国内业务并池。基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,离线业务资源分钟级调度 10 万核 CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例的价格最高可优惠 80%以上。

 

上云,缓解成本焦虑

 

云的弹性,不仅能够帮助企业降低成本,也能大幅降低创新所需要的等待时间。尤其是大模型时代,训练和托管大模型都会带来大量的成本开销,继而带来巨大的价值不确定性。谭待认为,选择上云,是这个问题的最优解。火山引擎在这个方面的优势在于:

 

  • 资源复用,目前字节国内业务拥有过亿核 CPU 资源池、数十 EB 的企业存储。以此为基础,火山通过充分和抖音进行并池和混部,分钟级可调度十万级核 CPU,实现更极致的弹性和性价比。

  • 全面云原生化,字节内部计算体系已经实现超过 95%的容器化,并且基于云原生实现了超大规模存储池化。这些技术能帮助客户通过云原生进一步用好云的弹性,并且通过业务混布提升资源利用率。

  • 坚持全栈自研,包括自研服务器、自研 OS、自研虚拟网络、自研 mGPU 技术等,将部署密度提升超过 500%,为上层应用带来更高资源利用率。

 

本次大会上,火山引擎还公布了全栈自研的新核心组件:火山引擎 DPU。谭待表示,云计算的本质是资源池化和软件定义,但随着云基础设施规模越来越大,计算、存储、网络的虚拟化损耗始终占据 10-20%的额外开销。要想提供更便宜的云服务,必须解决好这部分额外开销,把 CPU 和 GPU 释放到更关键的业务负载里。这就是火山要做 DPU 的原因。

 

据悉,火山引擎 DPU 整体网络性能升级到 5000 万 pps 转发能力,20us 延迟。目前,字节内部已经实现上万台 DPU 的部署,并且将持续提升渗透率。基于自研 DPU 的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的 GPU 实例,相较上一代实例集群性能最高提升 3 倍以上。



谭待认为,未来 3 年内,大规模的算力中心都将形成“CPU+GPU+DPU”的混合算力结构:CPU 负责通用计算,GPU 负责 AI 计算,DPU 负责资源卸载、加速和隔离,提升资源效率。

应对多云挑战

 

会上,谭待分享了一组数据:2022 年,火山引擎对超过 4500 个云消耗大于 100 万的企业进行调研,使用多云架构的企业占比达到 88%,达到历史新高;根据麦肯锡的报告,到 2025 年依然会有 42%的企业保留有私有云;根据 IDC 报告,25 年超过 30%的数据需要边缘实时处理。

 

谭待表示,造成这些现象背后的原因是复杂的,既有业务形态和成本管控的原因,也有数据安全和监管要求的原因。对于企业来说,必须要有能力来解决好这一分布式多云体系带来的挑战。

 

那么,企业如何建设好分布式云?火山引擎认为需要解决好三个问题:一是从单一公共云架构向多公共云架构升级,实现降本增效;二是从传统私有云架构向混合云架构升级,既能保障数据安全也能享受云的弹性;三是基于“算力靠近数据”的理念,形成覆盖 1-40ms 不同延时的架构方案,包括现场边缘、近场边缘和云边缘的体系化架构。

 

谭待表示,火山引擎是中国最懂多云和分布式云的云计算公司。因为字节跳动成立 11 年以来,内部使用过全球几乎每一朵公有云服务和边缘云服务,形成了一整套完整的分布式云管理体系和架构实践。

 

会上,火山引擎正式发布分布式云原生平台,能够支持超过 20 万节点,千万级核的使用场景,可以实现火山引擎云、第三方云、IDC 私有云和边缘云上集群资源与权限的统一管理,实施应用跨集群分发和故障迁移。面向边缘场景,火山引擎正式发布多云 CDN 管理平台。该平台基于字节数百 TB 带宽,十多家 CDN 厂商实操经验构建而成。安全方面,火山引擎发布了全栈多云安全平台。

 

最后,面向公有云和私有云长期并存的场景,火山引擎正式推出混合云平台:veStack。据悉,veStack 采取和火山公有云完全同源的架构设计,搭配火山 DPU 后可以让裸金属资源利用率达到 100%。此外,veStack 也支持多种异构存储协议,支持海光、鲲鹏等国产芯片服务器等。

 

云上如何创新

 

谭待分享了两个现象:一是多模态基础大模型的风起云涌。随着 ChatGPT 、GPT-4 的推出,国内的大模型创新公司也在奋力追赶;二是大模型在垂直行业的加速应用。

 

在 ChatGPT 带动下,大模型成为新的技术热点。有人认为,大模型将成为云厂商弯道超车的机会。对此,谭待表示,大模型还在发展初期,数据安全、内容安全、隐私保护、版权保护等许多问题还需要解决。但可以预见,大模型将带动云上 AI 算力急剧增长,AI 算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会,同时也会对数据中心、软硬件栈、PaaS 平台带来新的挑战。

 

在大模型及下游应用发展推动下,无论传统企业还是初创企业,对 AI 算力都有迫切需求,企业使用多家云服务将成为常态。同时,各行业有自己高质量的私有语料,大模型不会一家独大,而是会在千行百业生长,形成多模型共生甚至协作的生态。谭待表示,未来将是“多云多模型”的时代。

 

为此,火山引擎发布了面向推荐场景的高速训练引擎,支持 100GB-10TB+超大模型的高效训练。该引擎实现高可用 PS-Worker 架构,支持 PS、Chief、Worker 全方位容错。另外还支持多种模型瘦身技术、多种 GPU 模式,训练加速比 10 倍以上,综合成本可降低 25%~67%。

 

同时,火山引擎对去年发布的机器学习平台进行了升级:一是全新的实验管理-模型效果对比功能:二是支持弹性实例,资源灵活调度;三是针对大模型训练场景进行了全面优化,目前可以支持万卡级别大模型训练场景,微秒级超低延时网络。



需要明确的是,火山引擎自己并不做大模型,主要是服务做大模型的公司,比如 MiniMax、智谱 AI 等。

 

谭待表示,国内很多科技公司投入到大模型建设中,他们有优秀的技术团队,也有丰富的行业知识和创新想法,但往往缺乏经过大规模场景实践的系统工程能力。火山引擎要做的就是为大模型客户提供高稳定性和高性价比的 AI 基础设施。

 

谭待介绍,大模型需要大算力才能做出来,此外还需要很好的工程能力,去解决千卡甚至万卡并行的训练问题、网络问题,以及训练过程中如何更早地进行人为干预、观测。这些非常依赖机器学习平台。

 

“MiniMax 的训练场景都跑在火山引擎上,我们吸引它的点,除了算力供给外,最重要的就是通过机器学习帮它解决了很多工程上的问题,让它的资源更好地集中在业务上,即模型训练、分析和提效上等。”谭待表示,“所以对于火山引擎来说,除了算力供给,另外一方面就是云原生机器学习平台。”

 

MiniMax 是目前国内少数已经推出自研大模型产品的 AI 技术公司,拥有文本、视觉、声音三种通用大模型引擎能力。据 MiniMax 联合创始人杨斌介绍,MiniMax 与火山引擎合作建立了超大规模实验平台,实现千卡级常态化训练;超大规模推理平台有万卡级算力池,支撑单日过亿次调用。在火山引擎的云上,MiniMax 大模型业务实现快速突破。

 

谭待透露,国内大模型领域,七成以上已是火山引擎客户。

 

机器学习做智能化

 

在杨震原看来,机器学习很重要的一点,是把问题数字化。数字化可以让这个问题可以定量评估。当问题可以定量评估的时候,接下来就可以智能化,进一步用机器学习的方法来优化。

 

但用机器学习做智能化会主要面临两个问题:复杂和贵。复杂是因为机器学习软件栈很深,有 PyTorch、TensorFlow 等很多平台,也涉及到框架、操作系统,还有底层的硬件等,每个环节都要做对、做好。贵则体现在人力、数据、硬件等的昂贵上。

 

字节跳动副总裁杨震原认为,机器学习做得好不好可以用下面的三角形来表示,其中最重要的是算法。算法在效果上做到领先就能对业务产生很大的价值。而支撑算法效果需求的有两件事:一是硬件 ROI,另一个是人力 ROI。

 


硬件 ROI 指的是单位模型的成本,人力 ROI 是指招一个厉害的算法工程师进来,他能否发挥最大潜能,主要看系统能否支持他足够容易、足够敏捷地去尝试新的想法。“业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。”杨震原表示,火山引擎通过潮汐、混部等方式,来实现资源的高利用率和极低成本。

 

以抖音推荐系统为例,工程师用 15 个月的样本训练某个模型,5 小时就能完成训练,成本只有 5000 元。据悉,火爆全网的抖音“AI 绘画”特效,从启动到上线只用一周多时间,模型由一名算法工程师完成训练。

 

杨震原表示,火山引擎的机器学习平台是内外统一的,火山引擎客户和抖音会用使用同样的平台。

 

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2023-04-20 11:413160

评论

发布
暂无评论
发现更多内容

极客时间架构师培训 1 期 - 大作业一

Kaven

第 11 周 系统架构作业

心在那片海

十一、高可用

Geek_28b526

关于一个梦(自我的死亡)

Yuchen

身心健康 心理 自我

这样规范写代码,同事直呼“666”

xcbeyond

Java 代码规范 规范

与前端训练营的日子 --Week10

SamGo

学习

UDP连接要不要发起connect

kof11321

网络编程

Week11 安全稳定

evildracula

学习 架构

第 11 周 系统架构总结

心在那片海

架构师第一周总结



消息队列优化(3) -- grpc MPMCQueue 简介及各队列性能对比

1412

消息队列 workflow srpc 异步调度 并行计算

我画了 40 张图就是为了让你搞懂计算机网络层

cxuan

计算机网络 IP 网络层 ipv6 ipv4

第十一周学习总结

晴空万里

Week 11 作业

evildracula

2020年国内前端团队都做了些什么?

徐小夕

大前端 技术栈 2021

第六周学习总结

Binary

微服务缓存原理与最佳实践

万俊峰Kevin

缓存 缓存穿透 缓存并发 go-zero Go 语言

架构师训练营第2期 第11周总结

月下独酌

架构师 01 期,大作业一

子文

谁说明天上线,这货压根不知道开发流程!

小傅哥

Java 小傅哥 架构设计 开发流程 开发规范

江苏民丰 x mPaaS | 县域小银行,技术团队就12人,却找到了数字化转型的秘籍

蚂蚁集团移动开发平台 mPaaS

银行数字化转型 mPaaS

万字长文聊缓存(上)

Silently9527

Java nginx HTTP

判断回文数字算法,swift 5初始化详解,时间管理计划落地,swift5 多线程高级用法 John 易筋 ARTS 打卡 Week 33

John(易筋)

ARTS 打卡计划 算法回文数字判断 时间管理计划落地 swift5 初始化详解 swift5多线程高级用法

软件架构设计方案实战

Andy

极客时间架构师培训 1 期 - 大作业二

Kaven

console.log也能插图!!!

德育处主任

CSS html 大前端 Web js

呃?!!!我彻底忘了这件事😂

Nydia

消息队列优化(1) -- 鶸的介绍篇

1412

消息队列 workflow srpc 异步调度 并行计算

消息队列优化(2) -- 几种基本实现

1412

消息队列 workflow srpc 异步调度 并行计算

架构师训练营第2期 第11周命题作业

月下独酌

Week1 作业

oooh-la

火山引擎发力大模型训练云服务:与字节国内业务“并池”,为大模型企业提供底层支持_语言 & 开发_褚杏娟_InfoQ精选文章