
过去一年里,从激烈的“百模大战”中跑出了大模型“六小虎”——南有阶跃、北有智谱,此外还有月之暗面、百川智能、MiniMax、零一万物环伺。
进入 2025 年,随着 DeepSeek 的爆火出圈,大模型领域的硝烟显然只增不减。但不同企业的战略定位和落地模式也逐步呈现出了差异化。比如,被并称为“基模双雄”的阶跃星辰和智谱坚定地追求 AGI(通用人工智能),月之暗面和 MiniMax 的战略优先级是 C 端产品和应用,百川智能锚定医疗方向,零一万物也聚焦行业模型,拓展 to B 的数字人解决方案。
具体技术实践和产品落地进展如何?即将在 4 月 10 日-4 月 12 日举办的QCon全球软件开发大会北京站上,阶跃星辰、智谱、月之暗面、百川智能这大模型“四虎”将齐齐亮相,带来他们的最新技术成果。
阶跃星辰:SoTA 模型的技术创新与架构优势
多模态是阶跃星辰的最大特色。近日,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。据透露,阶跃星辰还将在 3 月开源公司自研的图生视频模型。
在 QCon 北京站上,阶跃星辰 Tech Fellow 段楠将重点介绍 Step-Video,带来《Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望》的主题分享。围绕 Step-Video 系列开源模型,段楠将介绍视频生成基础模型的最新进展,包括文生视频和图生视频等任务。此外,本报告还将总结现有视频生成模型面临的主要挑战,并讨论未来可能的发展发向。
演讲提纲:
1. 视频生成背景和现状
视频生成从简单的帧插值逐渐演变为复杂的多模态生成任务
多模态融合(文本、图像、音频等)、大规模预训练模型的应用逐渐成为趋势
2. 视频生成 SoTA 模型:Step-Video
技术亮点
实验结果:性能对比、案例分析
视频生成目前面临的挑战
3. 关于未来的讨论
更强大的多模态融合
实时生成
智谱 AI:大模型自主智能体的发展
智谱 AI 在 AI Agent 技术领域取得了一系列突破进展。比如去年 11 月发布的 AutoGLM 已经可以支持执行超过 50 步的复杂任务,支持跨应用操作和全自动上网功能;今年 1 月发布的最新的 AI 智能体“AgentGLM-PC1.1”,具备深度思考能力,能够生成思维链以拆解复杂任务,并通过代码机制提升推理能力;2 月上线的全新一代智能代理模型 GLM-PC 1.1,可以提供会议替身、文档处理、隐形屏幕等系统级功能,在复杂任务处理与多模态交互领域取得了新的技术突破。
在 QCon 北京站上,智谱 AI AutoGLM 部门负责人刘潇 将带来《大模型自主智能体的发展:以 Phone Use 和 Computer Use 智能体为例》的主题分享,介绍从 GPT-3 开始,大语言自主智能体的概念和发展的 3 个阶段,重点介绍第 3 阶段,即当前正在发展中的基于 GUI 和推理模型的大模型自主智能体。相比此前的对话智能体和基于 Workflow 的智能体,自主智能体将实现通用的智能代理能力,走出场景特化的局限性。报告将重点介绍 Phone Use 和 Computer Use 自主智能体的发展情况,比较这些方案的优劣,以及在实际例子上的表现,并且探讨接下来的大模型自主智能体发展的方向。
演讲提纲:
1. 引言
大语言模型的崛起与能力背景
自主智能体的定义与重要性
2. 大语言自主智能体的发展历程
大模型智能体的第一/二阶段:
基于非自主工具调用的大模型智能体
基于系统提示和 Workflow 工具调用的大模型智能体(GPTs)
系统提示与 Workflow 工具调用的原理
实际应用案例与效果展示
基于 GUI 和推理模型的大模型自主智能体(发展中)
最新进展与技术亮点
GUI 和推理模型的集成方式
当前阶段的挑战与解决方案
初步应用与前景展望
3. 方案比较与实际表现
三种方案的优劣对比
在不同场景下的实际表现分析
用户反馈与评价
4. 大模型自主智能体的发展方向
技术趋势与未来展望
潜在的应用领域与市场机会
研究与发展的挑战与对策
月之暗面:大规模集群训推混部经验及框架侧优化
近日,月之暗面推出了全新的优化器 Muon,Scaling law 实验表明,与计算最优训练的 AdamW 相比,Muon 的计算效率提升了 2 倍。基于此,月之暗面还训练出了 3B/16B 参数的 混合专家模型(MoE)——Moonlight,训练数据量达 5.7T tokens。通过 Muon 优化器和 Moonlight 模型,月之暗面重新定义了高效训练与性能的平衡,同时在长文本处理领域提出创新架构。
在 QCon 北京站上,月之暗面系统工程师黄维啸将带来《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,具体介绍月之暗面在训推混部集群中的实践经验,重点探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。同时,黄维啸还将分享如何在资源有限的情况下最大化利用率,避免浪费,进一步将该思路应用于强化学习任务的训练中。
演讲提纲:
1. 大规模训练推理集群的挑战
大规模集群中机器故障频率高,任务失败率高
推理场景中的用户请求具备潮汐效应
强化学习场景存在资源浪费情况
2. 提高训推混部集群稳定性和资源利用率
任务检查点的高效存储和回复
故障节点快速发现和隔离,提高训练可观察性,快速找到慢节点
潮汐优先级调度,最大化提高资源利用率
3. 通过混合架构提高强化学习效率
混合 Sidecar 部署架构
训推任务高效切换
百川智能:大语言模型落地垂直领域的实践经验
百川智能近期的技术路线主要集中于全模态能力突破、医疗等垂直领域的深化及产业生态扩展,通过开源与产学研合作加速技术落地。3 月 2 日,百川开源了全模态模型 Baichuan-Omni-1.5,支持文本、图像、音频、视频的全模态理解及文本/音频生成,数据显示,在视觉、语音、多模态流式处理等场景其表现超过 GPT-4o mini,尤其在医疗多模态评测集(如 GMAI-MMBench、OpenMM-Medical)中大幅领先。
在 QCon 北京站上,百川智能研究小组负责人阎栋将带来《Learn to Reason : The way of Baichuan-M1-ClinicReasoning》的主题分享,从介绍合情推理开始,首先回顾强化学习视角下的大语言模型训练的数学基础,然后以 Deepseek R1 为例梳理大语言模型推理技术的发展,再介绍百川智能研究小组在训练大语言模型进行临床推理的实践,最后讨论如何继续提升模型能力的可能方向以及大语言模型与人类在智能上的差异表现。
演讲提纲:
1. 推理:真实世界中的合情推理
2. 序章:强化学习视角下的大语言模型训练
在充满噪声的反馈回路下,带着镣铐学习跳舞
模仿学习、演示学习和偏好学习
3. 脉络:大语言模型的推理技术的发展,以 Deepseek R1 为例
少有人走的路:代码、数学和通用
R1-Zero 带来的启示:Test Time Scaling 和 SFT Seed
4. 临床:医疗的内生复杂性,推理能力 + 领域知识的临床推理范式
临床推理范式:生成诊疗假设,继而通过检验检查数据进行假设证伪与排除,最终经由自反思机制对剩余假设进行概率排序,输出符合临床思维路径的诊疗建议
基于 Monte-Carlo Tree Search 进行推理的几个问题:缺乏多样性、树结构退化以及无法利用前序探索路径
临床推理中的 state 和 action 定义,以及基于此进行的 Process Reward Model 数据标注
在没有 R1 的世界大杀四方,Recall “The Bitter Lesson"
5. 展望
重谈场景的摩尔定律(杨植麟 vs 闫俊杰)
大模型是否比我们更靠近终极真理?大模型智能与人类智能的差异表现
除了阶跃星辰、智谱、月之暗面、百川智能之外,还有来自百度、阿里、腾讯、华为、字节跳动、小红书、小米、美团、饿了么等企业的 100+资深专家将出席4月QCon北京站,聚焦大模型背景下的 AI 研发基础设施重构、工程生产力升级、组织管理创新、AI 搜索实践、大模型安全,以及多模态大模型及应用和技术人成长等话题进行议题分享。
更多议题内容可查看完整日程:https://qcon.infoq.cn/2025/beijing/schedule
评论