
DeepSeek 仿佛一个一夜之间确立的新“模型标准”,在大约两周的时间内,完成了对国内各大 B 端、C 端平台的集成和部署。随之而来的问题是,部署效果参差不齐,尤其是在 B 端,服务稳定性、准确率、API Latency、推理速度等维度都有较大差异。
业内许多机构、组织都在对此进行测试。而在一项来自 CLUE 中文语言理解测试基准的、包含了各大第三方 AI 平台的测试中,仅“完整回复率”一项,得分高者能达到 100%,而得分低者仅有 5%,跨度极大;在“每秒输出 Token 数量”维度,得分高者能超过 50 Token/s,而得分低者仅有不到 10 Token/s,相差 5-6 倍。
核心差异在于,各家在大模型基础设施层面的积累是不同,以及围绕模型的优化策略不同。是否采用了模型剪枝、量化或混合精度训练,是否有足够的服务器资源冗余,都会对这些测量指标造成影响。
根据多家机构的评测报告来看,火山引擎在各项测试里总能拿下第一的位置,在速度和可用性方面更是优势显著。如果 DeepSeek R1 的发布是场“春节大考”,那么火山无疑是坐在最前排的那名“优等生”。
火山引擎是如何“备考”的
要将“满血版” DeepSeek 部署在自家的基础设施上,并且以较优的体验对外提供服务,实际上是件颇有难度的事儿。
比如,V3/R1 满血版 700G,在 FP8 计算精度下,最少需要一台 8 卡 96G 显存的 GPU 才能部署,一般为了效果往往两台起步,所以在服务器上独立部署的成本还是很高的。
而硬件成本是这类部署中,最容易估算,也相对最片面的数字。实际上,DeepSeek 的部署和运维成本,至少要分散在四个层面:
资源层面,保证对大资源需求的及时响应,保障资源的灵活调度,完成硬件适配并承担维护成本。
技术层面,满足环境配置要求,完成模型的适配和优化,克服软件环境复杂度高的问题,额外自研或采购加速优化方案,保障对外服务的效率、稳定性与兼容性。
安全层面,保障数据安全、模型安全,否则易引发不当输出或企业纠纷。
运维层面,保障算力资源的弹性供给。
依托火山引擎 AI 云原生整合的全栈推理加速、最佳工程实践、高性价比资源、安全易用性及良好的端到端体验等优势,火山方舟提供了一个新思路:先做好模型选择,再完成最佳资源规划、推理部署工程优化,最后保障企业级服务调用。
模型选择的意思是,许多业务场景不一定需要“满血版” 的 DeepSeek ,还是要根据具体的业务场景和需求,如自然语言处理任务中的文本生成、问答系统、情感分析等,来选择最适合的模型。
模型部署前,还要对模型性能进行评估:除了常见的准确率、召回率等指标,还需要考虑模型的泛化能力、如稳定性、兼容性等因素。
最佳资源规划是指,围绕 DeepSeek, 做好资源的调度、监控、成本控制,而且要保证部署模式足够灵活,比如出于弹性与安全性的考虑,可选择云上部署或混合部署,且保证有效统一运维。
推理部署工程优化,更多是考虑是否有系统性对模型镜像拉取部署和推理过程的效率优化,例如是否有较好的 PD 分离方案、推理加速效果。
而企业级服务调用,则是要确保数据的传输、存储和使用过程中的安全,以及考虑是否有效抵御 DDos、提示词等攻击手段。同时要将 DeepSeek 服务与现有的系统进行无缝集成,要考虑适配和调试,API 的对接、IAM 身份认证管理等。
这一思路在业内基本已是共识,应该说火山并没做得有多“标新立异”。
但在云计算领域,思路总是趋同的——“Talk Is Cheap”——能在多大程度上落地,才是真正的考验。火山方舟能通过“大考”,说明其在落地层面,确实有其独到之处。
“丰富”、“灵活”,是大模型圈儿的“一招鲜”
火山引擎的第一个优势,在于可以提供 24G、48G、80G、96G 等多个 GPU 显存规格的云服务器实例,单机最大支持 768G 显存,支持 600B 以上参数大模型部署。同时有成熟的多机互联集群产品方案,跨计算节点最高可提供 3.2Tbps 高速 RDMA 互联带宽,通过 RDMA 网络互联的 GPU 云服务器,保证支撑“满血版” DeepSeek 的部署是没问题。现在官方提供的 Deepseek 部署实践,也支持社区版本的 SGlang 和 vLLM 两种框架。
同时,火山引擎还提供高性能自研模型蒸馏框架 veTuner、强化学习框架 veRL,以及训推一体、任务优先级调度和故障自愈能力。
这里的 veTuner 称得上是火山引擎 AI 技术栈中的核心工具——深度集成火山自研算力集群(如液冷 GPU 服务器、vRDMA 网络),支持混合精度训练,兼容英伟达、国产算力异构资源池。而且其开源生态很强壮,与 Hugging Face、ModelScope 等平台打通。
“灵活”,是火山引擎挑战 B 端云市场格局的另一个卖点。通过全栈推理加速、最佳工程实践和高性价比的资源调度,以模型为核心的火山引擎 AI 云原生能够覆盖资源利用率、资源性能、资源健康度等多个维度,提供毫秒级的监控观测能力,比如在高性能计算集群的 RDMA 监测指标上,提供了 17 个监测项。
相关的检测手段也很丰富,火山引擎 AI 云原生可以支持 GPU 单机内和高性能计算集群的实例健康度可视化一键诊断能力,在上千台实例中,分钟级定位集群问题实例。
根据官方口径的数据,火山引擎 AI 云原生可以实现秒级发现,分钟级自愈,单机冷迁移任务耗时<1 分钟,同时支持混合部署方式。
回归企业对云及 MaaS(Model as a Service)服务最原始的需求,丰富的算力资源,灵活的配置方式,始终是底层逻辑与采购核心。这里没有太多“捷径”,有足够的技术投入,就有足够的商业回报。
推理优化,是火山引擎的“重头戏”
无论从方舟直接调用 API ,向底层拆解到 MLP 机器学习平台、到云原生 PaaS、再到更底层 IaaS,火山引擎围绕 AI 云原生的概念,几乎在每一个层级都有对应的快速部署的最佳实践。
以模型为核心,打造 AI 云原生基础设施,是 2025 年火山引擎非常重要的发展概念。
比如:为了更好支撑 PD 分离计算,火山引擎从 GPU 硬件服务器在数据中心的交付部署阶段开始做优化,把高算力 GPU 和高显存带宽的 GPU 资源以合理配比做了亲和性部署,首先从物理层面就降低了数据跨交换机传输的概率。
PD 分离是一种针对大语言模型(LLM)推理的优化架构,将预填充(Prefill)和解码(Decode)两个阶段拆分到不同的计算资源上独立执行。这是因为 Prefill 阶段计算密度高,需要高算力设备;而 Decode 阶段内存访问密集,需要高显存带宽设备。
而亲和性部署是一种资源调度策略,简单来说,是根据偏好,将同类 Pod 部署在同一节点中,减少通信延迟。
PD 分离,和亲和性部署,二者属于一套“技术组合拳”。
早期从工程实施的角度,业内没有办法将“活儿”分的这么细,而火山引擎是国内公有云平台上最先支持 DeepSeek PD 分离的,可见已经具备了良好的实践能力。
火山引擎分析了不同参数量级模型的计算特性,以及其在 Prefill 和 Decode 阶段对资源的消耗情况,进而总结了不同情况下,在 P(Prefill) 和 D(Decode)阶段需要采用什么类型的算力,如何制定配置比例,等等。
理论上,火山引擎的客户只需选择平台预置的模型文件、支持自研 xLLM 推理引擎的环境镜像、推理算力,就可以一键完成 DeepSeek R1 满血版 PD 分离集群化部署,最高推理吞吐提升 5 倍。
当然,即便做了 PD 分离,跨资源池进行算力调度,也是不可避免的。
火山引擎自研 vRDMA 网络在这种情况下,可以起到关键的优化作用——这是国内首创的基于标准 RoCE V2 协议的 vRDMA 产品能力,对比很多私有协议,vRDMA 的兼容性强,能保证无侵入式的快速支撑当前的各种 AI 框架和软件栈。
火山围绕大模型的 KV-Cache 优化也推出了相应的加速产品弹性极速缓存 (EIC),有半托管和全托管两种产品形态,通过 GDR 技术实现零拷贝,将推理时延降低至 1/50,同时降低 GPU 推理消耗 20%。
二者综合下来,面对跨 GPU 资源池以及存储资源调度,火山引擎可以提供最高达 320Gbps vRDMA 的高速互联能力,使端到端大模型推理性能提升 100% 以上。
这提升了火山方舟 DeepSeek 在“首 Token 响应时间”维度的测试表现。
“首 Token 响应时间”主要受服务端初始化模型的计算开销和网络传输影响。例如,DeepSeek 官方的首 Token 延迟高达 7.75 秒,远高于火山引擎的 1.01 秒。
而即便不考虑 vRDMA,火山引擎的容器镜像仓库通过缓存、预热等能力,也可以将模型镜像的拉取速度提升约 50%。
安全与性价比:打破“二选一”困境
针对企业级服务调用,火山引擎比较神奇的地方在于,把安全和性价比两个看起来“冲突较大”的概念统一在了一起。
尤其是 DeepSeek 爆火后,接踵而来的 DDos 攻击,令业内十分头疼——这事儿看起来只能靠钱堆,多配置计算资源冗余,除此之外没有太好的办法。
安全方面,火山引擎在流量智能检测与拦截、多层加密与隔离架构等方面做了许多工作。比如,通过智能检测和语义分析技术,火山引擎能够有效识别并拦截恶意提示词注入攻击,使得数据泄露风险降低了 70%;通过引入多轮校验和上下文一致性检测机制,火山引擎将模型幻觉和回复不准确的发生率降低了 90% 以上。
性价比方面,以当前主流的显存 96G 的 8 卡 GPU 云服务器为例,火山的刊例价格同样也是最低的,低于市场价大概 16%。
但实际上,火山引擎没有理由不去追求最优性价比。这不是某种商业策略,而是长期技术投入导致衍生的价值复用。
要知道,无论是今日头条还是抖音,其成功都是现象级的,背后是超大规模的算力储备,放眼全球看来都十分罕见。这意味着只要在基础架构层面保持统一,算力资源都可以分别被打通,实现灵活调度。
比如,在业务低峰期,字节跳动国内业务的空闲计算资源可极速调度给火山引擎客户使用,可分钟级调度 10 万核 CPU、上千卡 GPU 的资源量 , 做到 GPU 资源的潮汐复用,价格最高可优惠到 80% 以上。同时具备一站式混合 / 私有化部署大模型软硬一体方案。
无论是在软件层面,还是硬件层面,这种级别的投入,对于火山引擎而言,都是有迹可循的。其核心无非是一句话:“以模型为核心”。
没有包袱的火山,全速冲刺
不懂得这句话,几乎就无法理解最近两年来,发生在火山引擎身上的变化。
以模型为核心,实际上是对“以 GPU 为核心”概念的升级。
在 2024 冬季火山引擎 FORCE 原动力大会上,火山引擎提出了“AI 云原生”理念,核心在于传统云原生架构在计算性能、数据处理效率及安全性方面逐渐显现不足,AI 技术的快速发展需要新的基础设施架构来支撑,因此提出了“以 GPU 为中心重构云架构”的理念。
在技术上,AI 云原生主要对计算架构、存储、网络等几大方面做出了迭代,其最大的亮点,在于完全绕开了传统的 CPU 体系内存访问路径,允许 GPU 直接访问远程高速内存,从而简化数据传输路径,提高计算效率。
以模型为核心,则是指,除了在基础设施层面,为 GPU 开辟捷径,还要追求以下四点:
全栈推理加速,并具有最佳工程实践;
具有高性价比的计算资源和灵活部署模式;
更加安全,保障大模型应用平稳运行;
易用性好,端到端体验好。
看看去年年底,火山引擎发布的两个实例:弹性预约实例(ESI)和抢占式实例(Spot),二者都是典型的算力资源调度产品,旨在满足企业在 AI 推理场景下对弹性、成本优化和稳定性的需求——前者允许用户提前预约并锁定算力资源,后者按需竞价,可以更好地节省成本。
这类实例,传统云计算大厂也是有的。但只有火山在单独强调 GenAI 推理场景,而不是通用计算场景。所以,火山引擎这两个实例,对异构算力的调度能力更好,不依赖预留券,就可保障资源可用性,确定性更好。适用于需稳定资源的在线推理、容错性高的离线推理、成本敏感型实验性模型部署等情景和任务。
这是一种异常果决的,围绕生成式 AI 制定的发展策略,行动力极强,从“以 GPU 为核心”迭代至“以模型为核心”,耗时不到一个季度。
也难怪,作为云计算赛道的“新兴玩家”,火山引擎没有任何的“历史包袱”:其生态内业务全部诞生自数据科学,所处的行业趋势完全向生成式 AI 靠拢,二者天然亲和,互为补充,且无后顾之忧。
战略的果决,使得火山引擎在算力投资和生态合作两个方面都非常的活跃。
此外,火山引擎也已经早早完成了商业化验证。根据国际数据公司 IDC 发布的《中国智算服务市场(2023 下半年)跟踪》报告,火山引擎 GenAI IaaS 市场份额国内第一。
这一系列利好,让人不得不开始考虑:火山引擎 AI 云原生“以模型为核心”的思路,会引发整个云计算行业的跟随吗?固化了许久的国内云计算市场,或许正迎来新的变化。
点击【链接】体验满血 + 联网版 DeepSeek R1 模型及豆包最新版模型!
评论