写点什么

阿里深夜发布 QwQ-32B 模型:仅 1/20 参数就可媲美 DeepSeek R1,还能在苹果笔记本运行

  • 2025-03-06
    北京
  • 本文字数:813 字

    阅读完需:约 3 分钟

大小:438.27K时长:02:29
阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行

刚刚,阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿,但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿,其中激活参数为 370 亿。


 

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试,全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示,QwQ-32B 在多个关键指标上展现出强劲竞争力,并与当前领先的多个模型——包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1——进行了对比分析。

 

Hugging Face 和 ModelScope 的介绍页面显示,QwQ-32B 是一个密集模型,未采用 MoE 结构,并支持 131k 的上下文长度。

 

有网友分析指出,由于 DeepSeek 模型规模高达 6710 亿参数,推理部署难度较大。要高效运行 DeepSeek,至少需要 22 台服务器,每台配备 8 张 GPU,这对企业来说是一个不小的成本和运维挑战。相比之下,QwQ-32B 仅有 320 亿参数,意味着它几乎可以在单机上高效运行,大大降低了推理部署的门槛。

 

“当然,许多企业在推理部署时会将预填充(Prefill)和解码(Decoding)阶段分开运行,因为它们的推理需求不同。但无论如何,QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行(Expert Parallelism),简化了推理部署流程。”


 

还有网友调侃道:“关键问题是,Qwen QwQ-32B 能‘做空’英伟达(NVIDIA)吗?”


 

据阿里 Qwen 团队介绍,这是他们探索了强化学习(RL)扩展的成果,RL 训练可持续提升模型性能,特别是在数学和代码生成方面。同时,他们观察到,持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

 

此外,QwQ-32B 还集成了智能体相关能力,能够在使用工具的同时,根据环境反馈动态调整推理过程,使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力,也为通用人工智能(AGI)的发展提供了新的思路。

 

QwQ-32B 以 Apache 2.0 许可证开源,用户可通过 Qwen Chat 直接进行体验。

2025-03-06 11:3110644

评论

发布
暂无评论

架构实战营4.3 存储分片分区架构随堂练习

西山薄凉

「架构实战营」

我们要的一种自学方式,也许是看书自学成才。

叶小鍵

技术升级落地需要天时、地利、人和

石云升

极客时间 1月月更 技术领导力实战笔记

Verilog HDL门级建模

timerring

FPGA

15个 高并发系统设计 锦囊帮助你设计高并发!

风铃架构日知录

Java 程序员 后端 高并发 分库分表

大数据培训课程靠谱吗?

小谷哥

NodeJS 实战系列:如何设计 try catch

光毅

JavaScript node.js

Source Map 原理

道道里

前端 webpack sourcemap

架构实战营4.4 如何设计存储架构随堂练习

西山薄凉

「架构实战营」

认识区块链,认知区块链——NFT

MavenTalker

区块链 NFT web3 数字藏品

web前端线下培训学习靠谱吗?

小谷哥

Python 内置界面开发框架 Tkinter入门篇 乙

eng八戒

Python GUI tkinter

一文揭晓,我是如何在Linux中查找自如

蔡农曰

Linux 程序员 运维 后端

Java编程培训中心怎么样呢

小谷哥

网络安全中API常见漏洞

郑州埃文科技

API漏洞

认知篇:CQRS架构模式的本质

京东科技开发者

架构 微服务 后端 CQRS 企业号 1 月 PK 榜

程序员培训班哪家教的比较好

小谷哥

生产环境10分钟黄金时间快速排障:CPU不定时飙高怎么排查?

KINDLING

Java Linux 后端 监控 ebpf

如何使用 Java8 改造模板方法模式!

风铃架构日知录

Java 程序员 后端 设计模式 模板方法

微信小程序实训|基于云数据库的语文听写工具

TiAmo

微信小程序 云开发 微信开发

WEB前端编程培训靠谱吗?

小谷哥

聚焦低碳发电,践行“双碳”之路

脑极体

华为 智能光伏

CBM业务模型是什么和为什么?

涛哥 数字产品和业务架构

企业架构

vivo 超大规模消息中间件实践之路

vivo互联网技术

kafka 中间件 pulsar 消息中间件 RoketMQ

资产梳理与应用自动化部署技术实践

智维数据

大数据 数据可视化 智能运维 应用交付平台 流量分析系统

启科QuTrunk+Runtime+QuSaaS+AWS量子计算编程实战

启科量子开发者官方号

量子计算

C++ 引用:他是坤坤也是鸡哥

子夜的星

c++ 引用 语法 引用参数函数

运维训练营第十二课作业

好吃不贵

设计消息队列存储消息数据的 MySQL 表格

小虎

#架构训练营

架构实战营4.2 存储复制架构随堂练习

西山薄凉

「架构实战营」

数据可视化图表系列解析——瀑布图

Data 探险实验室

数据分析 数据可视化 图表 可视化数据

阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1,还能在苹果笔记本运行_生成式 AI_Tina_InfoQ精选文章