
此前, Meta 首席人工智能科学家杨立昆(Yann LeCun)表示,DeepSeek 的成功带来的最大启示是保持 AI 模型开源的重要性,这样每个人都能从中受益。他表示,这并不是中国的人工智能“超越美国”,而是“开源模型战胜了专有模型”。
那么,事实确实如此吗?本文整理自 InfoQ 策划的 DeepSeek 系列直播第四期节目。在直播中,极客邦科技创始人 &CEO 霍太稳对话 PPIO 派欧云联合创始人 &CTO、TGO 鲲鹏会学员王闻宇,深入探讨了 DeepSeek 爆火背后,开源策略对 AI 企业商业模式的影响,以及开源与闭源路线带来的思考。在王闻宇看来,除了在模型训练算法和工程层面的突破外,DeepSeek 在 AI 基础设施方面的重要创新,使得许多 AI 基础设施公司能够探索降低成本和提升性能的方法。而推理成本的降低将使得 AI 大规模应用的门槛变低。当 AI 推理成本实现十倍、百倍甚至千倍的降低时,AI 应用将迎来爆发式增长。
下文为直播部分内容精选,完整直播回放可点击链接查看:https://www.infoq.cn/video/YM1Jwe7xtgxRFq1QgtAO
以下为王闻宇的分享实录部分(经编辑):
我们先来回顾一下 DeepSeek 爆火的原因。在过去两个月,DeepSeek 发布了 V3 和 R1 两个模型。V3 模型对标了 OpenAI 最强的多模态模型 4o,而 R1 则对标了 OpenAI 的深度思考模型 o1。DeepSeek 的这两个模型不仅在性能上与 OpenAI 相媲美,甚至在某些场景下表现更优,比如在经典问题“3.11 和 3.9 哪个更大”上,DeepSeek 能答对,而 OpenAI 的模型却会答错。
总结 DeepSeek 成功的原因,主要有三点:
DeepSeek 的模型在评测数据集上的表现非常出色,V3 和 R1 的评分都超过了 OpenAI 的对应模型。这证明了其技术实力与 OpenAI 相当。
DeepSeek 的成本极低。从训练角度看,其论文显示总训练成本约为 500 万美元,相当于 Meta 一位高管的年薪。相比之下,OpenAI 的模型成本要高得多。在推理成本上,DeepSeek 的 R1 模型仅为 OpenAI 的 1/30,V3 模型为 4o 的 1/10。即使 OpenAI 在 DeepSeek 发布后紧急推出了 O3 mini 模型,但成本依然高于 DeepSeek。
最后,DeepSeek 的开源策略是其备受关注的真正原因。它不仅对标了 OpenAI 的王牌模型,还通过开源“解密”了 OpenAI 的核心技术。DeepSeek 在开源中展现了诸多创新,例如混合质量模型 Moe、多头潜在注意力机制 MLA,以及强化学习中的 GRPO 算法,这些都优于 OpenAI 所使用的 PPO 算法。此外,DeepSeek 还开发了 MTP 多 token 预测机制,进一步优化了性能。这些技术不仅揭示了 OpenAI 的技术思路,还在此基础上进行了核心优化。
我认为,DeepSeek 成功的最大原因并非单纯的效果媲美 OpenAI 或成本更低,而是它通过开源将这些技术公之于众。如果 DeepSeek 没有开源,它可能不会引起全球如此广泛的关注。开源不仅让技术更加透明,还推动了整个行业的技术进步。
开源与闭源的思考

有些公司专注于开源,而有些公司则选择闭源。在我看来,大语言模型的开源与传统开源项目有很大不同。传统开源本质上是一种工程师之间的协作方式,但大语言模型的开源则不然。首先,大语言模型开源的核心是模型权重。其次,开源内容还包括技术论文、训练细节以及部分工程代码,这些可以让开发者复现模型。在模型开发过程中,大语言模型往往由单一公司主导,不存在协作机制。只有在开源后,社区才会参与推理、再训练和微调(fine-tuning)。因此,大语言模型的开源性质与传统开源存在显著差异,这种差异也决定了它们的发展方向。
从 2023 年 LLaMA 发布开始,开源模型一直在追赶闭源模型。随着时间推移,开源模型的表现逐渐逼近闭源模型。截至 2024 年 7 月,开源模型的表现已经与闭源模型非常接近,差距正在缩小,未来这种差距会更小。

DeepSeek 的出现让其它巨头陷入焦虑。OpenAI 紧急发布了 O3 mini,并公布了 GPT 4.5 和 GPT 5 的路线图,承诺在 2025 年发布 GPT 5。Meta 也从犹豫是否开源 LLaMA 4 转变为确定在 2025 年上半年开源,并成立了四个“作战工作室”,专门应对中国模型的挑战。百度也宣布下一代模型将开源。2 月 18 日,埃隆·马斯克将发布 Grok 3。如今,各大公司都在加速发展,意识到开源带来的竞争压力。
开源带来的价值
开源对于整个社会和开发者来说,带来了诸多好处:
第一,开源能够快速降低推理成本。一旦模型向社会开放,众多公司就会参与研究如何部署和优化,从而降低人工成本、提升模型性能,进而迅速拉低处理成本。
第二,开源赋予了开发者更大的灵活性。开发者可以选择在公有云、专有服务器或内网环境中部署模型,不用担心性能限制或数据安全问题,能够更加放心地使用。
第三,开源还具备很强的可玩性。开发者可以使用自己的特色数据进行微调(fine-tuning)或再训练,从而创建出个性化的模型。
第四,社区的贡献也不容忽视。开源项目发布后,会迅速吸引大量开发者参与,他们利用各种数据集进行微调或模型蒸馏(distillation),创造出适用于不同场景的模型供他人选择。开源的最大价值在于,它将原本只有头部企业(如 OpenAI)才能参与的技术平民化,让更多人能够参与到其中。
开源大模型推动了技术平权。随着更多人参与、更多需求被满足以及不断的迭代优化,开源项目逐渐形成了一个正向循环,其影响力也越来越大。开源项目的核心优势不在于技术壁垒,而在于生态的开放性和包容性。这种开放性吸引了大量参与者,构建了强大的生态壁垒。因此,我预测在 2025 年,会有更多更好的开源模型出现。
开源项目的成功依赖于其开放性和生态建设,最终能够胜出的开源大模型一定是极度开放和包容的,并且能够构建起强大的生态壁垒。最终,开源大模型可能只会剩下少数几个,甚至只有 1-2 个,就像服务器操作系统的 Linux、移动操作系统的 Android 一样,因为生态的壁垒,不可能容纳很多家。
对 AI Infra 的影响
DeepSeek 的爆火对 AI 基础设施(AI Infra)的影响非常显著。在 1 月 17 日,英伟达的股价出现了单日 17% 的最大跌幅。当时有消息显示,从 DeepSeek 公开的资料看、训练所用显卡数量极少,成本也极低。这使得投资者意识到,原来训练大模型并不需要堆积大量的显卡,这一认知瞬间改变了市场对英伟达未来预期的判断。

除了在模型训练算法和工程层面的突破外,DeepSeek 在 AI 基础设施方面也有重要创新。例如,DeepSeek 在某些算子中直接用 PTX(Parallel Thread Execution,可以简单理解为 GPU 的汇编语言)进行编程来提高性能。之前网上有文章称 DeepSeek 绕开了 CUDA,其实这种说法并不准确,因为 PTX 也是 Cuda 生态的一部份。这充分说明了 DeepSeek 把性能做到了极致。
此外,DeepSeek 在训练过程中大量使用了 FP8 精度浮点数,这大大加快了训练速度,减少了 GPU 数量的需求。这种高效的训练方式为 AI 基础设施领域带来了新的思路。


开源模型的出现,使得许多 AI 基础设施公司能够探索降低成本和提升性能的方法。比如我们公司,PPIO 派欧云,就可以通过研究开源的模型权重,代码,论文,可以尝试各种推理优化方案,做各种各样的优化实验,最终几乎都能找到无损且效果良好的解决方案。但如果是闭源项目,就只有模型公司自己来优化性能。
这种模式下,不同公司会根据自身需求选择不同的部署方案:有些追求高性能,用贵的卡,跑较少的 Batch Size,价格可能较高;反之,有些则追求低成本,用廉价的卡,跑较高的 Batch Size,性能相对较低。这种多样化的选择为开发者提供了灵活性,也促使各公司相互竞争,进一步降低推理成本。相比之下,闭源公司在这方面可能缺乏动力,这也是开源生态带来的优势之一。
以我们 PPIO 派欧云公司为例,我们上线了 DeepSeek 满血版的 API,采用全参数,未进行 INT8 量化,以确保性能无损。此外,我们还推出了专属的 DeepSeek 容器服务,用户只需一键操作,即可快速启动 GPU,并部署专属模式,给出专属于开发者的 API 接口。另外对于普通用户,低代码开发者,我们已经接入了多个应用 (如 Dify, FastGPT, Chatbox, CherryStudio 等),用户可以在设置模型参数时选择 PPIO 派欧云的 API 服务。近期,我们还推出了邀请码活动,新用户将获得 5000 万 token(用我的邀请码 MWMLW8),5000w 的 token 足够开发者能享受我们的 API 服务较长时间了。
应用和新趋势
最近,DeepSeek 的应用趋势正在发生变化。微信正在内灰度测试接入 DeepSeek,百度地图也上线了基于地理位置的深度思考搜索。这些应用主动接入 DeepSeek 的背后,核心原因之一在于其推理成本的大幅下降。

我之前提过 AI 推理第一性原理:AI 单位需求的推理成本,当实现了 10 倍 /100 倍 /1000 倍优化后,带来 AI 推理应用的爆发。
推理成本的降低必然解锁更多 AI 应用个场景,而无需担心成本问题。从经济学角度看,永恒的规律,“Affordability is all you need”(便宜就是你所要的),就像移动互联网时代,大部分 APP 都是免费的,这吸引了大量用户,而开发这些 App 的企业则通过广告模式盈利。随着 AI 推理成本的下降,未来会有更多 AI 应用采用免费模式,而非订阅模式。这种模式将因为用户的大规模看广告的方来,获得收入来实现盈利,这才是互联网应有的形态。我认为,免费的 AI 时代即将到来。
随着用户数量的激增和应用场景的不断拓展,推理的用量将很快超过训练。据 TIRISARearch 预测,到 2026 或 2027 年,推理市场的规模可能会达到训练市场的 20 倍。开源技术的结合和私有部署的普及,将为应用市场带来巨大的进步。
总结
总而言之,回顾一下我的所有观点:
DeepSeek 的成功源于效果、成本和开源三者的结合。
开源与闭源之间的差距正在缩小,未来可能会进一步减小。
开源不仅加速了 AI 基础设施技术的发展,还推动了性能提升和成本降低。
当推理成本降至足够低时,AI 应用将进入免费时代。
推理算力的用量也将远超训练算力的开销。
以下为对话实录部分(经编辑):
InfoQ:当前主流开源模型的推理性能表现如何,尤其是在延迟、吞吐量和准确性这些关键指标上,与闭源模型相比,差异是否显著?
王闻宇: 模型性能的差异并不完全取决于开源或闭源,而更多决定于,选择的 GPU,并发参数,还有推理优化技术所共同决定。
这里说得并发参数,例如 Batch Size。在部署推理的时候,往往需要在 Batch Size 和性能指标(延迟,吞掉)之间寻找平衡。如果 Batch Size 过高,总 Token 数吐得更多,Token 单价便宜,但是单用户体验会变差,推理速度也会变慢。相反,如果 Batch Size 过高,虽然用户体验会更好,但总 Token 数吐得慢,导致 Token 单价上升。闭源模型也存在类似平衡问题,所以这点不是决定开源和闭源的区别。
这里,真正的区别在于,部署方式和推理优化技术的方案选择上,首先,推理优化技术对模型性能的影响非常关键,特别是开源模型,任何人都可以去研究,无论是之前 LLaMa 还是最近 DeepSeek,如果未经优化,性能都不会达到最优。通过采用无损优化技术、PD 分离、投机采样、并行方案如 EP,DP,PP 管道并行等方法,模型性能可以大幅提升,甚至有 10 倍的优化空间。
以 DeepSeek 为例,其性能优化的关键在于几个技术点:首先是 PD 分离,具体来说,如果不做 PD 分离,模型的 Profile 阶段和 Decode 阶段耗时不是一样的,大量的 Profile 操作完成后,需要排队等待 Decode,从而导致推理效率低下。根据官方的建议,这种情况下 Profile 和 Decode 的配置在 H800 下建议在 1:10。换句话说,如果使用一张 GPU 卡进行 Profile,那么搭配 10 张 GPU 来进行 Decode,是比较推荐。这是 H800 下的建议,如果 GPU 不是 H800,我们时间下来不是 1:10 是最好的。其次,DeepSeek 采用了 MLA(Multi-head Latent Attention)技术,MTP(Multi-token Prediction)机制也是性能提升的关键。如果这些优化措施不到位,模型的吞吐量和性能都会受到严重影响。因此,模型的最终性能取决于优化的基础和方法。还有做好 DP(Data Parallelism,数据并行),EP(Expert Parallelism, 专家并行),PP(Pipeline Parallelism,流水线并行)等并行方案,也有不小的提升。
对于闭源模型,优化可能仅限于模型公司内部,但对于开源模型,全球的开发者都可以参与优化,探索优化方案,降低成本从而降低 Token 价格,推动整个行业的发展。
InfoQ:在硬件(如 GPU)以及软件推理框架和编译器等层面,究竟有哪些因素限制了开源模型的推理效率?同时,如何解决模型规模与推理资源之间的矛盾?
王闻宇: 从硬件角度看,要分 GPU 和 TPU 来看,另外编译器和硬件是紧密关联。
以 DeepSeek 为例,现在要部署满血版 DeepSeek 模型,拥有 671 亿参数。如果使用单台 H100 的 8 卡配置,或者单台 H20 的 8 卡配置,在不做任何有损优化(比如压缩或量化)的情况下,单台机器是无法运行的,需要两台机器并联才能满足需求。这是因为模型参数量巨大,单台机器的内存和计算速度不足以支撑其运行。但如果使用 H200 或 MI300,一台 8 卡机器就可以运行。因此,制约模型运行的并非开源与否,而是模型参数量和优化技术。如果在不损失精度的前提下保留参数量,并为上下文和缓存留出空间,那么确实需要更强的算力来支持。
但是部份场景更适合于选择专用硬件,比如 TPU,其设计原理与 GPU 有所不同。例如,Groq 使用了大量的 SRAM(高速缓存存储器) 替代 HBM(高带宽、堆叠式存储器),这使得其成本大幅上升,但吞吐速度也显著提高。这种硬件适合对成本不敏感、但对性能要求极高的场景,更适合选择 Groq 这类 TPU。然而,专用硬件的最大问题是随着模型的快速迭代(AI 领域变化迅速,模型架构不断更新),硬件的固化设计可能无法适应新的模型架构,比如将来如果 Transformer 算法有大的迭代的时候,可能就不能适应了。
我认为,未来对于通用场景,GPU 仍将是主流选择,因为其灵活性和通用性能够适应快速变化的模型需求。而对于一些特定的、垂直需求的场景,专用硬件如 NPU /TPU 会逐渐占据一定市场份额。
InfoQ:我们之前也讨论过硬件和软件方面的限制,这些因素影响了开源模型推理的效率。你在 Infra 领域积累了很多经验,能否为我们介绍一下目前比较成熟的一些成本优化技术?
王闻宇: 当前以 GPU 为主的硬件主要有三个瓶颈,分别是算力、显存带宽、显存容量,通过三类技术进行解决。
无损加速技术
这一类技术致力于通过优化计算过程,减少不必要的计算和 I/O,提升算力利用率。一个典型的技术是 FlashAttention,它通过对 Q/K/V(查询、键、值)的切块和数学优化,将原本需要三次循环的矩阵计算压缩为一次循环,从而有效提高计算和访存效率。同时,FlashAttention 还通过算子融合技术,将旋转位置编码、MASK 等计算逻辑融合到单个 kernel 中,进一步减少了不必要的 GPU 访存,优化了计算性能。除 FlashAttention 外,PageAttention、Chunked Prefill 在保证不影响模型精度前提下,提升了推理性能。
有损加速技术
这一类技术通常会牺牲一定的精度来换取性能提升,包括量化、稀疏化、KV Cache 压缩等技术。对于大模型推理中的 Decode 阶段,显存带宽成为瓶颈所在,主要表现在 GPU 的全局内存和共享内存的数据交换过程中。此时,量化 和 KV 压缩这样的技术可以显著减轻 I/O 压力。例如,常见的 KV Cache 通常采用 BF16 格式存储,每个数据占用 16 个二进制位。如果将其压缩为 FP8 格式,每个数据仅占 8 个二进制位,这不仅能减少 Decode 阶段的 GPU I/O 开销,还能减少 GPU 内存占用,提高处理并行度,进一步提升推理性能。
系统架构优化
系统层面的架构优化,通过合理调度、缓存和并行计算等技术,减少无效开销,提升硬件资源利用效率。常见的架构优化技术包括 PD 分离、投机采样、Constrained Decoding 和 Prefix Cache 等。推理过程大致可分为 Prefill 和 Decode 两个阶段,其中 Prefill 阶段瓶颈是计算,Decode 阶段瓶颈是显存访问。实际硬件中,很难同时解决这这两个瓶颈问题,因此对应的优化技术应运而生。PD 分离是将 Prefill 和 Decode 分离到不同的机器上,通过分布式处理技术实现算力利用率最大化。同时,投机采样通过使用草稿模型提高 Decode 并行度,有效减轻 I/O 访存压力。Constrained Decoding 和 Prefix Cache 等技术则能减少重复计算,降低无效 token 的计算量。此外,引擎中的队列调度、优先级策略和网络传输优化等技术,也能在不同程度上提升推理性能。
这些优化技术在学术界和工业界都得到了广泛应用,不断有新的研究成果出现。LLM 推理的降本空间很大,即使模型和硬件不变,通过优化也能显著降低成本。这也是 Infra 公司的核心价值所在。
InfoQ:有一位直播观众提出了一个很有趣的问题,他想知道 DeepSeek 的 API 后面会不会涨价。
王闻宇:最近确实有消息称 DeepSeek 的 API 价格上涨了 3 倍,但这并非单纯的涨价行为。DeepSeek 在上线初期就明确发布了价格策略,并且在 2 月 8 日调整了价格。DeepSeek 团队早在发布第一天就表示,为了推广服务,初期会以 V2 的价格进行促销,而 2 月 8 日之后将恢复原价。因此,这次的价格调整是基于既定的价格策略,并非突发的涨价。
DeepSeek 背后拥有强大的技术团队,他们在量化交易领域有着丰富的经验,尤其在毫秒级延迟优化方面非常擅长。其团队对硬件优化非常有心得,利用 PTX 和 CUDA 深度优化提升性能。因此,DeepSeek 的价格调整是基于成本核算和市场策略的综合考虑。
此外,DeepSeek 采用 NSA(Native Sparse Attention)技术,这一技术通过稀疏注意力算法将 64k 长文本的推理速度提升了 11.6 倍。这一成果表明,通过模型结构的优化,DeepSeek 可以显著降低推理成本。相比传统的 Softmax Attention 技术, Sparse Attention、Linear Attention 和 Tensor Product Attention 等技术在推理时的计算成本优势非常明显。
此外,DeepSeek 的开源特性也使得其他公司和开发者可以根据需求探索不同的算法来进一步降低成本。虽然 DeepSeek 的官方价格可能会让部分用户感到压力,但随着技术的不断进步和新型算力解决方案的出现(例如 B100 等新芯片的发布),推理成本有望进一步降低。因此,未来 DeepSeek 的价格不仅不太可能上涨,反而可能会随着技术的发展和市场竞争的加剧逐渐降低。
InfoQ:PPIO 的 DeepSeek 大模型在第三方评测中的准确率排名第一,你们是怎么做到的?
王闻宇: 这个评测是由一个比较著名的独立第三方评测机构 SuperClue 进行的。
他们在评测准入页面上提到,评测是基于其内部封闭的数据集进行的。网上有些资料暗示他们可能拥有很多数据,但这些数据集并未公开,因此我们也不清楚具体内容。评测过程是让模型回答问题,然后判断答案是否正确。
我们之所以能在评测中排名第一,我认为主要有两个原因。
首先,我们的模型是真正的“满血版”,保留了所有参数,没有进行 INT8/INT4 量化,而是以原始的 FP8 精度运行推理。FP8 提供了更大的动态范围,相比 INT8 和 INT4,它能够更好地保留原始数值信息,从而避免了由于量化带来的精度损失。从行业情况来看,很多公司使用了 INT8 等低精度量化,因为国产 GPU 在硬件层面不支持 FP8,这可能是其他公司在评测中表现稍逊一筹的原因。
其次,我们的模型上线流程非常严格,公司在出海时已经做了大量模型托管服务,所以有一套严格的商业流程。在上线每个模型之前,我们会使用多种数据集进行评测,包括公司内部的专有数据集以及公开数据集(如 GSM8K)。此外,我们还会进行人工评估以确保模型的性能和质量。我们会确保评测结果与官方数据或第三方数据相近,才会正式上线模型。我们对模型的严格要求和无损处理,让我们在 SuperCLUE 数据集上的表现非常出色。
InfoQ:你觉得 DeepSeek 这一波是不是代表了 AIGC 应用和普及的一个拐点?
王闻宇: 在中国,DeepSeek 的出现确实是一个重要的拐点。从市场推广角度看,除了 DeepSeek 之外,许多公司并没有真正将核心能力开源,而是通过开源小型项目模型来吸引关注和客户,随后再推广其闭源的大型模型。这种策略更多是将开源作为一种市场推广手段,而非真正开放核心技术。而 DeepSeek 则是唯一一家真正将最核心能力开源的公司,尤其是其 V3 版本,不仅开源,还达到了与 OpenAI 媲美的效果。
对于国内市场而言,DeepSeek 的开源还解决了数据管控的问题。由于国内对内容管控的要求较高,许多国际开源模型(如 LLaMA 等)的数据结果不可控,容易被下架。DeepSeek 的开源使得国内企业无需翻墙,极大地降低了使用门槛。此外,DeepSeek 的成本远低于 OpenAI,这使得更多的企业能够负担得起,从而推动了 AIGC 应用的普及。
从资本角度看,DeepSeek 的成功也改变了全球对中国 AI 技术的信心。此前,全球资本对中国 AI 持悲观态度,认为中国只能追赶 OpenAI 等国际巨头。然而,DeepSeek 的出现证明了中国公司能够开发出具有国际竞争力的 AI 模型,这不仅提升了中国 AI 技术的全球地位,也吸引了更多海外资本的关注。这种信心的提升也反映在股市上,特别是港股市场的整体上涨,部分原因可以归结于 DeepSeek 带来的积极影响。海外投资者,尤其是中东、新加坡和欧洲的资本,开始对中国 AI 技术表现出更大的兴趣,这为国内创业者提供了更多的资金支持。
此外,我认为 DeepSeek 的出现不仅推动了技术的普及,还可能开启了新的一波 ToC 创业窗口。就像当年移动互联网时代一样。我最近刚从美国湾区回来,感觉那边的 ToC 创业窗口已经开启,我相信中国这边很快也会打开。因此,DeepSeek 的出现可能会引领我们进入一个新的创业者黄金时代,这不仅对开发者来说是一个利好消息,也对整个行业的发展具有深远意义。
直播预告
2 月 11 日 -2 月 27 日,AI 前线视频号联合霍太稳视频号通过 12 场直播,深度解析 DeepSeek 爆火背后的技术突破、商业化路径与行业影响。今晚 20:30,我们将连线北电数智首席科学家窦德景教授一起探讨 AI 技术下一个可能突破的小目标是什么。欢迎提前预约👇

评论 1 条评论