速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

水木分子联合清华 AIR、智源开源系列生物医药大模型

水木分子

  • 2023-08-21
    北京
  • 本文字数:2543 字

    阅读完需:约 8 分钟

水木分子联合清华AIR、智源开源系列生物医药大模型

水木分子联合清华大学智能产业研究院(AIR)开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,该模型在生物医药专业领域问答能力比肩人类专家水平,在自然语言、分子、蛋白质跨模态问答任务上达到 SOTA。同时,水木分子、AIR 联合开源了全球首个免费可商用、生物医药专用 Llama 2 大语言模型 BioMedGPT-LM-7B。“AIR-智源健康计算联合研究中心” 合作开源了小分子药物基础模型 DrugFM。此次开源的生物医药基础模型重科研、可商用,为生物医药研究与应用提供大模型底座。


开源地址:

https://github.com/PharMolix/OpenBioMed

https://huggingface.co/PharMolix/BioMedGPT-LM-7B


研究动机 打通自然语言与化学、生物编码语言


清华大学智能产业研究院(AIR)首席研究员、水木分子首席科学家聂再清表示:“大模型最令我们惊喜的是智能涌现与触类旁通的能力。生命现象本质也是一种自然进化的语言编码,如果能够将人类总结的知识与氨基酸、分子、蛋白数据压缩到统一的大模型框架内进行编码与学习,有望能够理解生物编码的语言机制,进而从底层推动与生命科学相关的研究与应用。” 



聂再清教授团队提出了一种全新的多模态语义理解框架 BioMedGPT,它运用了生物医学领域中的预训练大语言模型—BioMedGPT-LM 作为桥梁,将自然语言、生物编码语言以及化学分子语言等连接起来。


BioMedGPT-LM 通过充分利用海量生物医学相关数据,对通用的基于 GPT 架构的大型语言模型进行微调,在生物医学领域发挥更出色的性能。作为连接桥梁,BioMedGPT-LM 能够连接各种生物模态的编码,包括分子、蛋白质、细胞和基因表达数据,同时还能够整合知识图谱、文档、数值实验结果以及其他格式所体现的专业知识。通过跨模态特征融合模块集成,不同模态的生物编码语言、化学分子语言与自然语言能够在同一个特征空间中实现统一融合。



BioMedGPT 架构


BioMedGPT-10B 全球首个开源可商用多模态生物医药百亿参数大模型


BioMedGPT-10B 作为 BioMedGPT 的一个开源且可商用的具体实例,建立了文本、分子和蛋白质三个模态的统一特征空间。它支持跨模态自然语言和分子语言的交互式问答,可在药物靶点探索与挖掘、先导化合物设计与优化、蛋白质设计等领域得以应用。同时,在生物医药领域的语言理解能力得到显著提升,在多个生物医药问答基准数据集上实现了 SOTA,比肩人类医学专家水平,已成功通过了美国医师资格考试。



通过精心设计的 Instruct 方法,将不同编码结构的生物医学数据映射到一个共同的文本模态特征空间中,实现了数据的统一性,不同模态的数据可以在相同的语义空间中进行比较和交互。


为了进行分子、蛋白质到自然语言的对齐,我们专门构建并开源了分子-文本问答(PubChem QA)数据集和蛋白质-文本问答(UniProt QA)数据集。分子-文本问答(PubChem QA)数据集用于对齐分子和自然语言语义,包含来自 PubChem 的 325, 754 个分子和 365, 129 个分子-文本描述。蛋白质-文本问答(UniProt QA)数据集,包含来自 UniProt 的 569, 516 个蛋白质,涵盖蛋白质相应的名称、蛋白质功能、亚细胞定位和蛋白质家族信息,共计生成了 1, 891, 506 个蛋白质序列-文本描述问答数据。以上数据集现阶段只支持单轮对话,而聂再清教授团队正在进行多轮版本的打造。


下面重点介绍模型在典型任务中的表现:


  • 分子自然语言跨模态 QA


该任务针对输入分子式生成对该分子的自然语言描述,同时支持进一步问答,用于探索该分子相关信息。在该任务下,采用了一个经典的分子文本生成任务数据集 ChEBI-20 来评估 BioMedGPT 在处理自然语言和分子语言之间的理解与转化能力。实验针对 BioMedGPT-10B 的性能与几个基线模型进行了对比。结果表明,BioMedGPT-10B 在分子文本生成任务上全面超越了通用语言模型。



  •  蛋白质自然语言跨模态 QA


该任务针对输入蛋白序列生成对该蛋白的自然语言描述,同时支持进一步问答,可支撑药物靶点发现、靶点挖掘研究。基于 UniProt QA 数据集进行了系列对比实验,显示出 BioMedGPT-10B 在蛋白质-文本跨模态理解和翻译上的能力。以下图为例,未经过对齐的 LLama2-7B-chat 无法理解输入的蛋白质数据,经过模态对齐后 LLama2-7B-chat 能通过提问获悉用户意图是想了解蛋白质功能,但仍然无法提供准确和有信息量的回答。BioMedGPT-10B 的回答则更精确、全面、明确指出了蛋白质 P52341 在胸腺嘧啶核苷酸的生物合成中的作用,更接近于标准答案。



  • 生物医药自然语言任务


BioMedGPT 的语言模型 BioMedGPT-LM 在大规模的生物医学文献数据上进行了训练,其语言能力在生物医学领域表现更为出色。在生物医药领域的三个基准数据集,USMLE、MedMCQA 和 PubMedQA 达到业内领先水平,在专业生物医学问答方面能够媲美医学专家,成功通过了美国医师资格考。


BioMedGPT-10B 在 PubMedQA 上的准确率达到 76.1%,仅比人类专家(expert)标准低 1.9%。在 OOD (Out-of-Domain)设置中,BioMedGPT-10B 的准确率为 50.4%,是除 ChatGPT 外唯一一个超过人类人工性能(pass)的模型。但值得一提的是,ChatGPT 的参数量是 BioMedGPT-10B 的 17 倍以上。


MolFM/DrugFM  小分子药物基础模型 


本次与 BioMedGPT-10B 一同开源的还有小分子药物基础模型:MolFM/DrugFM。MolFM 由 AIR 聂再清教授团队研发,是首个能够统一表示分子结构、生物医学文献以及知识库的基础模型。MolFM 引入了跨模态注意力机制,将分子结构中的原子、分子实体的邻居以及与之相关的语义文本相连接。通过在特征空间中最小化同一分子的不同模态以及具有相似结构或功能的分子之间的距离,MolFM 能够捕获局部和全局的分子知识,从而促进跨模态的理解。MolFM 的有效性已在各种下游任务中得到广泛验证,包括跨模态检索、分子描述、分子-文本生成和分子特性预测。MolFM: A Multimodal Molecular Foundation https://arxiv.org/abs/2307.09484


DrugFM 由“清华 AIR-智源联合研究中心”联合研发,AIR 兰艳艳教授团队针对小分子药物的核心组织规律与数据表示进行了更前沿的探索与更精细设计,形成有效的小分子药物预训练模型 UniMAP。同时,将该小分子药物预训练模型与已有的多模态小分子药物基础大模型 MolFM 有机结合。模型在 Cross-modal Retrieval 跨模态检索任务取得 SOTA。DrugFM 作为小分子药物基础科研模型,将持续迭代,有效支撑和提升小分子药物筛选、设计、优化等相关下游任务。


原文链接:

https://mp.weixin.qq.com/s/PVBA4AAcbCdHg_fXKA58uA

2023-08-21 14:595272

评论

发布
暂无评论
发现更多内容

百度评论中台的设计与探索

百度Geek说

什么是数据流向分析?

清林情报分析师

数据分析 流向分析 数据流向 资金流向 可视化分析

为了写好代码,我坚持了这8条习惯!

Jackpop

私有云和公有云的主要区别有几点?两者哪个更安全?

行云管家

云计算 公有云 私有云 企业上云 云管平台

web前端培训Vue面试题分享

@零度

Vue 前端开发

资金穿透分析

清林情报分析师

数据分析 分析软件 分析工具 资金穿透 资金分析

如何使用物联网低代码平台进行系统管理?

AIRIOT

物联网 低代码开发 低代码开发平台

K8S集群无法通过Service Name访问的故障

领创集团Advance Intelligence Group

从感知智能跨越到认知智能,NLP领域要做哪些创新?

澜舟孟子开源社区

人工智能 自然语言处理 nlp 大模型 认知智能

吉林长春等保测评公司有几家?详细地址在哪里?

行云管家

网络安全 等级保护 等保测评 等保测评机构 吉林

不愧是美团内部“接口自动化测试学习笔记”这细节讲解,神了

伤心的辣条

Python 程序人生 软件测试 自动化测试 接口测试

什么是面向对象编程?终于懂了

Jackpop

小程序开发真的可以取代APP软件开发设计吗?

开源直播系统源码

软件开发 小程序开发

可视化技术在 Nebula Graph 中的应用

NebulaGraph

可视化 图数据库 知识图谱

使用APICloud AVM多端框架开发消防检查助手App项目实践分享

YonBuilder低代码开发平台

APP开发 APICloud 多端开发 应用开发 avm.js

【ELT.ZIP】OpenHarmony啃论文俱乐部—gpu上高效无损压缩浮点数

ELT.ZIP

鸿蒙 压缩算法 Openharmony啃论文俱乐部 ndzip

信息化App在「左」,数字化App在「右」

Speedoooo

App 数字化 信息化

如何从零开始开发一款chrome扩展?

Jackpop

常见线程数量的估算方式

snlfsnef

系统设计 线程 多CPU

外呼机器人7大难题,看网易云商如何攻破?

网易智企

AI 机器人

如何最简单、通俗地理解Python的pandas库?

Jackpop

云原生中间件 — Kafka Operator 总览篇

Daocloud 道客

云原生 开源项目 消息中间件 上云 Strimzi Kafka Operator

BI的落寞,低代码会重演一遍吗?

ToB行业头条

LoadBalance

Damon

6月月更

漫谈软件架构

韩陆

云原生 领域驱动设计 可观测性 软件架构 事件驱动架构

企业如何建设知识管理系统

小炮

单线程性能炸裂 英特尔以Sapphire Rapids强势角逐AI计算市场

科技之家

TASKCTL关于 "Fastjson反序列化远程代码执行漏洞” 的风险通告

敏捷调度TASKCTL

DevOps ETL算法 大数据平台 反序列化 TASKCTL

哈希彩竞猜娱乐游戏俱乐部系统开发详情

开发微hkkf5566

Flink CDC + OceanBase 全增量一体化数据集成方案

Apache Flink

大数据 flink 编程 流计算 实时计算

高考后,学会这种能力,让你收益终生!

图灵教育

数学 高考 数学建模

水木分子联合清华AIR、智源开源系列生物医药大模型_生成式 AI_InfoQ精选文章