大模型“四虎”出山,亮相 4 月 QCon 北京。 了解详情
写点什么

Baichuan-M1-preview 发布!集齐语言、视觉、搜索三大推理能力,解锁医疗循证模式

  • 2025-01-24
    北京
  • 本文字数:4368 字

    阅读完需:约 14 分钟

大小:2.14M时长:12:27
Baichuan-M1-preview 发布!集齐语言、视觉、搜索三大推理能力,解锁医疗循证模式

2025 伊始,大模型厂商们仿佛约定好了一样,纷纷带着各自的推理模型,走上台前。


1 月 24 日,作为 AI 六小虎之一的百川智能,正式发布了首个深度思考模型 Baichuan-M1-preview,该模型是国内唯一一个同时具备语言推理、视觉推理、搜索推理三项能力的模型,并且解锁了医疗循证模式,不仅各项推理能力行业领先,在医疗健康场景上更是一骑绝尘。


此外,为了推动 AI 技术在医疗领域的创新与应用,百川智能还开源了 Baichuan-M1 的小尺寸版模型 Baichuan-M1-14B,该模型为行业首个医疗增强开源模型。


百川智能的首个推理模型,实力怎么样?


去年 9 月,百川智能创始人 & CEO 王小川在采访中表示,“在下场时,如何理解模型和应用之间的关系,还有大厂跟创业公司的关系这些问题,那会都已经想明白了。在应用驱动侧,我认为医疗是这波变革中最大的,甚至是唯一的应用”,并提出了百川智能要“用大模型造医生”。


随着 Baichuan-M1-preview 的发布,百川智能“大模型造医生”正在开花结果。


通用能力成绩不俗


从模型能力来看,此次发布的 Baichuan-M1-preview 在语言推理、视觉推理、搜索推理能力方面表现优异。




语言推理方面,在 AIME 和 Math 等数学基准测试,以及 LiveCodeBench 代码任务上,Baichuan-M1-preview 的成绩均超越了 o1-preview 等模型;视觉推理方面,在 MMMU-val、MathVista、MathVision 等权威视觉评测中,Baichuan-M1-preview 同样领先于 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。



据介绍,Baichuan-M1-preview 的深度思考能力在多个领域具备独特优势:


  • 学术研究:在数学推理和跨学科知识处理方面表现卓越,能够解决复杂理论问题;

  • 软件开发:深入理解代码结构,提供精准的优化建议和调试方案,显著提升开发效率;

  • 医疗健康:通过严谨的病程推理,协助医生进行诊断决策,为患者提供全面的分析和个性化建议。


解锁医疗循证模式


医疗是百川智能的核心领域,但想要将 AI 落地到医疗场景,必须要解决结果的准确性与可解释性这两大难点。


一方面,医疗数据存在来源广、格式与标准不统一、存在缺失或错误值等问题,数据质量参差不齐、标注困难。另外由于医疗问题涉及多因素相互作用,相对复杂,且存在模型过拟合风险, AI 模型难以精准处理医疗信息;另一方面,AI 模型自身的“黑箱”特性,往往难以呈现因果关系,而医疗责任重大,医生需明确决策依据,患者也希望了解诊断和治疗缘由,可解释性成了又一挑战。


为了应对上述挑战,百川智能解锁了「医疗循证模式」,这一模式借鉴了“循证医学”的理念,在面对复杂医学问题时,会将专业可靠的医疗知识作为推理依据,帮助用户做出最佳的医疗决策


为了实现这一能力,百川智能自建了涵盖亿级条目的循证医学知识库,囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容,并以天为单位进行动态更新,及时收录医疗领域的新突破、新进展。同时,针对海量的医学信息,百川智能构建了多层级证据分级体系,从期刊质量、研究方法、同行评审严谨度等多个维度进行统一甄别、溯源与评级,提供从基础科研到临床实践的整合式循证支持,确保为医学问答、科学研究和临床决策提供最准确、最新、最权威的信息。


值得一提的是,作为“最懂搜索的大模型”, Baichuan-M1-preview 还能够自主调用搜索能力,在互联网上实时获取权威医学证据、临床指南和研究进展。


从医疗知识库和互联网上获取到医疗信息之后,模型在推理过程中,如果发现数据存在潜在的冲突和不一致,会主动运用医学知识和证据评估标准,对证据进行分级判断,避免因信息混杂导致对病情误判,进而形成全面、连贯的医学结论。



Baichuan-M1-Preview 的医疗循证模式,最大优势在于能够连接医疗证据与实际需求,解决医疗场景中信息过载、不确定性和碎片化的痛点。无论是医生面对复杂病案,还是患者寻求权威建议,模型都能通过“摆事实、讲道理”的循证方式提供言之有物、有理有据的解答。


对于医疗专业人士而言,M1 在临床场景中能帮助他们快速获取跨学科、病种复杂临床问题的最新科研成果与权威指南,为疑难病症诊疗提供有力支撑,提升临床决策效率;在科研场景下,M1 可迅速检索前沿、相关且权威的研究成果,助力用户高效搭建完整领域知识体系,缩短科研探索时长,推动研究进展。


对患者来说,基于权威指南和科学研究推理总结的结论,可以作为可靠的第二诊疗意见,增强对诊断和治疗的确定性;也能帮助患者更好地理解自身病情,提升与医生沟通的质量,积极参与治疗决策;此外,清晰权威的信息也能为患者提供科普支持,助力其科学管理健康,提高治疗效果等。


在模型的可解释性方面,Baichuan-M1-preview 采用了显式思维链方式去推理并呈现答案。模型可以逐步分析问题,在每一步进行自我校验,从而提高答案的准确性;同时模型推理的过程也变得透明,用户能够理解模型是如何得出最终答案的,进而增加了模型结果的可信度。


开源 M1-14B,想做医疗健康行业的“送铲人”?


事实上,黄仁勋、扎克伯格、Anthropic 创始人达里奥·阿莫迪都曾在不同场合肯定了 AI 在医疗健康、生命科学领域的价值与前景。但医疗健康行业复杂且严谨、数据烟囱现象严重、技术资源也有限。想让 AI 医疗惠及大众,非一日之功,亦非一家之功。因此,构建医疗健康行业的技术生态也就变得尤为关键。


为了推动 AI 技术在医疗领域的创新发展和普惠,增强 AI 医疗技术的透明度和可信性,提高医疗服务的可及性,繁荣 AI 医疗生态,百川智能开源了 Baichuan-M1 的小尺寸版模型 Baichuan-M1-14B。


尽管 M1-14B 是小尺寸版模型,但是其实力同样不容小觑。不仅在 cmexam、clinicalbench_hos、clinicalbench_hos、erke 等权威医学知识和临床能力评测上的成绩超越了 Qwen2.5-72B-Instruct ,并且与 o1-mini 也非常接近。



数据处理花苦功夫


在数据收集阶段百川智能花费了大量时间,针对医疗场景做了非常细致的数据收集。据介绍,M1-14B 原始语料包含:


  • 千万级中 / 英文专业医疗论文

  • 千万级院内真实中 / 英文医疗病例

  • 万本医疗教材、几十万级医疗书籍

  • 千万级知识图谱医疗实体、百万级医疗词条

  • 百万级指南、专家共识、知识库等专业数据

  • 亿级医疗问答、医疗问诊、临床看病数据

  • 总量万亿级 token 的严肃医疗数据


值得一提的是,除了对数据进行详尽收集外,百川智能还进一步对数据进行了分类、评估,包括医疗科室、医疗内容以及医疗价值的分类和评分。并且在预训练过程中,实施了严格的数据筛选策略,以确保各科室数据分布均衡,同时保证模型能够学习到真正正确且具有医疗价值的信息。



对于互联网上的海量医疗数据,百川智能动用了大量医疗专家资源,整理出了可能是目前最全面的,包含中英双语二百余个权威知识源的医疗数据库,覆盖了从宏观到微观,从科研到临床的医疗全链路、全谱系知识。在此基础之上,再将数据源分为海量医学知识、医疗知识图谱、临床病例文本三大类,并针对每一类针对性的设计数据利用策略。


同时,百川智能通过自我反思机制和奖励模型(Reward Model)不断迭代合成数据质量,合成超百 b token 高质量医疗推理数据。这些多样化的知识呈现形式和思维过程的补充有效强化了模型的医学能力,显著提升了其医疗推理能力。


分级训练高效对齐


在模型训练方面,百川智能运用行业首创的「多阶段领域提升方案」,将整个训练分为三个阶段,依次提升基础语言、高阶及疑难病症应对等能力。


  • 阶段 1- 通识能力提升阶段:基础语言模型建模阶段,提升模型的基础语言能力、常识等能力。

  • 阶段 2- 医疗基础知识提升阶段:不断提升模型高阶能力、如推理,数学等,并显著提升医疗数据的比例。

  • 阶段 3- 医疗进阶知识提升阶段:进一步提升数据质量和难度,对更高阶的医疗能力、如推理、逻辑、疑难杂症等进行进一步优化。


「多阶段领域提升方案」训练出的模型具有诸多优势。首先,它能够以类似婴儿学步的方式,循序渐进地帮助模型构建知识体系,使其能从基础到高阶逐步掌握专业知识;其次,通过分阶段有针对性训练,能够提高模型在不同层次任务上的准确性和针对性;再次,借助通识阶段的广泛学习,模型的泛化能力得到了极大提升,能更好地应对不同类型的医疗任务和应用场景;此外,分阶段训练意味着后续可以针对各阶段进行单独优化和更新,比如当新出现的医疗知识或技术出现后,可以在医疗进阶知识提升阶段进行针对性的训练和调整,并且不会影响到模型的整体结构和基础能力等。


为了进一步提升模型的生成质量、逻辑推理能力和用户偏好贴合度,百川智能设计了一套系统化的强化学习(RL)训练流程。在 SFT(Supervised Fine-Tuning)模型基础上,分三步逐步优化,充分结合了思维链探索、偏好对优化以及策略梯度优化的优势。具体流程如下:



值得一提的是,百川智能在 CoT(Chain of Thought)训练框架中,创新性地引入了 ELO(Exploratory log-likelihood optimization)强化学习方法,优化了思维链路径,避免了传统奖励模型的偏差,有效提升了模型的生成质量与逻辑推理能力。


不久前,《2024 中国医学界十大年度人物》出炉,王小川凭借百川智能在用 AI “造医生、改路径、促医学”方面的探索与成果,成为了该榜单唯一的“跨界”获奖人。这既是对百川智能的技术路线的认可,也凸显了用 AI 变革医疗这一时代的需求。


Baichuan-M1-14B 模型的开源,对于医疗行业而言,无疑是一场及时雨。在医疗效率提升上,它能助力医生快速处理海量医疗数据,从诊断辅助到治疗方案制定,大幅缩短时间,让患者得到更及时的救治。通过开源,不同医疗机构、科研团队能基于此模型共享研究成果,打破数据烟囱现象,实现医疗知识的广泛传播与交流,加速医疗创新的步伐。对于医疗资源有限的地区,开源模型则极大地降低了技术门槛,使其能利用这一先进技术,提升本地医疗服务水平,缩小地区间的医疗差距。同时,模型辅助的智能诊断等功能,也能减少了不必要的检查和人力投入,一定程度上降低了医疗成本,让医疗服务更加普惠大众。


目前 Baichuan-M1-preview 已在百小应上线,由此百小应具备了深度思考模式,不仅能准确解答数学、代码、逻辑推理问题,还能会像资深医疗专家一样,进行深度思考,构建严谨的医学推理过程。此外,开源模型 Baichuan-M1-14B 也已上线 GitHub。


毋庸置疑的是,Baichuan-M1-preview 是百川智能在“造医生、改路径、促医学”愿景征程中的一次重要突破,Baichuan-M1-14B 开源模型也将为中国 AI 医疗健康生态建设注入了新的生机。我们无法预见这两颗石头会给行业带来怎样的涟漪。但可以确定的是,只要生根发芽,终会开花结果。


相关链接:

Baichuan-M1-14B 下载地址:

Github: https://github.com/baichuan-inc/Baichuan-M1-14B

Huggingface(base): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base

Huggingface(Instruct): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct

NPU 版本支持 BF16 推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base

2025-01-24 15:379096

评论

发布
暂无评论

苹果mac流行的API开发工具:Postman

Rose

harmony_flutter 自定义toast

flfljh

HarmonyOS harmony

安能物流 All in TiDB 背后的故事与成果

PingCAP

数据库 TiDB

One Switch for Mac(菜单栏一键开关控制神器)v1.33.1中文版

Rose

需求管理的主要内容包括哪些

易成研发中心

需求管理 需求管理工具

轻松搞定平稳运行,数据库平台 DBStack 帮助 DBA 运维不同基础设施上的各类数据库

Baidu AICLOUD

数据库

揭秘淘宝天猫API接口:轻松获取商品详情与优惠券券后价

代码忍者

API 接口 pinduoduo API

告别 Kafka,拥抱 Databend:构建高效低成本的用户行为分析体系

Databend

GreptimeDB Edge 2.0 车端多模态数据库线上发布会

Greptime 格睿科技

数据库 车联网 汽车

印象笔记发布全新知识管理平台 AI让你的第二个大脑持续升级

E科讯

区块链游戏的新观察:自治世界能否成为未来链游的突破口?

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

GoodNotes 5 - 笔记、绘图、文档管理一站式搞定

Rose

disk drill mac 破解版 附disk drill 激活码 好用的苹果数据恢复软件

Rose

3D渲染和动画制作软件 KeyShot破解版 附永久许可证及安装教程

Rose

TinyEngine低代码引擎2.0新特性介绍

OpenTiny社区

低代码 OpenTiny TinyEngine 前端开源

2024-11-27:字符串的分数。用go语言,给定一个字符串 s,我们可以定义其“分数”为相邻字符的 ASCII 码差值绝对值的总和。 请计算并返回字符串 s 的分数。 输入:s = “hello“

福大大架构师每日一题

福大大架构师每日一题

axure rp8中文安装包 附axure rp永久密钥

Rose

中昊芯英基于国产TPU算力服务器在高校中的应用,助力太极股份成功入选特色案例

科技热闻

金狗出没时间揭秘:为什么凌晨成了 Meme 币的神盘时段?

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

解锁淘宝天猫数据宝藏:深度探索商品描述、详情图与评论的API调用新视角

代码忍者

API 接口 pinduoduo API

支付 APP 的测试管理实践与思考

优测云服务平台

持续测试 测试管理工具 测试用例管理平台 质量门禁

好用的交互式动画界面设计神器 Principle for Mac汉化版

Rose

鸿蒙 Next 中 Text 组件用法总结

flfljh

Pixelmator Pro for Mac 非常强大、美观且易于使用的图像编辑器

Rose

mac免费的投屏软件duet,帮助用户把mac的屏幕分享到移动设备的应用

Rose

Eudic 欧路词典:多语种翻译神器,精准释义与例句一应俱全

Rose

鸿蒙Flutter 常见问题总结

flfljh

鸿蒙 next 封装日志工具类 LogUtil

flfljh

2024华为云开源开发者论坛项目抢鲜看|Kmesh: 监控指标和访问日志功能详解

华为云原生团队

云计算 开源 容器 云原生

Baichuan-M1-preview 发布!集齐语言、视觉、搜索三大推理能力,解锁医疗循证模式_AI&大模型_付秋伟_InfoQ精选文章