
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。
百川智能研究小组负责人阎栋已确认出席并发表题为《Learn to Reason : The way of Baichuan-M1-ClinicReasoning》的主题分享。在代码、数学等需要强大推理能力的领域,大语言模型已经走出实验室走向实践。医疗领域中的临床推理,要求模型基于强大推理能力,将艰深的医学知识灵活应用到对病人病情的分析和检验检查结果的解读上,从而最终获得正确的诊断。本次演讲将从合情推理开始展开介绍,首先回顾强化学习视角下的大语言模型训练的数学基础,然后以 Deepseek R1 为例梳理大语言模型推理技术的发展,再进一步展开介绍百川智能研究小组在训练大语言模型进行临床推理的实践,最后讨论如何继续提升模型能力的可能方向以及大语言模型与人类在智能上的差异表现。
阎栋博士毕业于清华大学计算机系,主要从事决策算法/系统和大语言模型对齐/推理方面的研究,在 ICLR、ICML、IJCAI、AAAI、JMLR、Pattern Recognition 等会议/期刊发表论文数十篇。他带领团队基于 RLHF 增强的大语言模型 Baichuan3,在 2024 年 4 月份的 Superclue 评测中荣获国内第一;开发的深度诊断模型 Baichuan-M1-ClinicReasoning,已上线百小应 APP 和百方医生小程序,并以小于 Deepseek R1 一个数量级的模型大小,在临床推理场景下达到与 R1 相当的性能。他在本次会议的详细演讲内容如下:
演讲提纲
1. 推理:真实世界中的合情推理
2. 序章:强化学习视角下的大语言模型训练
在充满噪声的反馈回路下,带着镣铐学习跳舞
模仿学习、演示学习和偏好学习
3. 脉络:大语言模型的推理技术的发展,以 Deepseek R1 为例
少有人走的路:代码、数学和通用
R1-Zero 带来的启示:Test Time Scaling 和 SFT Seed
4. 临床:医疗的内生复杂性,推理能力 + 领域知识的临床推理范式
临床推理范式:生成诊疗假设,继而通过检验检查数据进行假设证伪与排除,最终经由自反思机制对剩余假设进行概率排序,输出符合临床思维路径的诊疗建议
基于 Monte-Carlo Tree Search 进行推理的几个问题:缺乏多样性、树结构退化以及无法利用前序探索路径
临床推理中的 state 和 action 定义,以及基于此进行的 Process Reward Model 数据标注
在没有 R1 的世界大杀四方,Recall “The Bitter Lesson"
5. 展望
重谈场景的摩尔定律(杨植麟 vs 闫俊杰)
大模型是否比我们更靠近终极真理?大模型智能与人类智能的差异表现
您认为,这样的技术在实践过程中有哪些痛点?
专家的稀缺性对 RLHF 范式的根本挑战
通用技术进步的曲线仍然很陡峭的情况下,垂直领域难以构建壁垒
演讲亮点
一站式回顾大语言模型训练的底层数学机理和推理技术发展
对大语言模型与人类在智能方面表现差异的初步讨论
听众收益
深入了解大语言模型的训练和推理技术的发展脉络
获得如何将大语言模型应用到垂直领域的实践经验
除此之外,本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。

评论