写点什么

水木分子联合清华 AIR、智源开源系列生物医药大模型

水木分子

  • 2023-08-21
    北京
  • 本文字数:2543 字

    阅读完需:约 8 分钟

水木分子联合清华AIR、智源开源系列生物医药大模型

水木分子联合清华大学智能产业研究院(AIR)开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,该模型在生物医药专业领域问答能力比肩人类专家水平,在自然语言、分子、蛋白质跨模态问答任务上达到 SOTA。同时,水木分子、AIR 联合开源了全球首个免费可商用、生物医药专用 Llama 2 大语言模型 BioMedGPT-LM-7B。“AIR-智源健康计算联合研究中心” 合作开源了小分子药物基础模型 DrugFM。此次开源的生物医药基础模型重科研、可商用,为生物医药研究与应用提供大模型底座。


开源地址:

https://github.com/PharMolix/OpenBioMed

https://huggingface.co/PharMolix/BioMedGPT-LM-7B


研究动机 打通自然语言与化学、生物编码语言


清华大学智能产业研究院(AIR)首席研究员、水木分子首席科学家聂再清表示:“大模型最令我们惊喜的是智能涌现与触类旁通的能力。生命现象本质也是一种自然进化的语言编码,如果能够将人类总结的知识与氨基酸、分子、蛋白数据压缩到统一的大模型框架内进行编码与学习,有望能够理解生物编码的语言机制,进而从底层推动与生命科学相关的研究与应用。” 



聂再清教授团队提出了一种全新的多模态语义理解框架 BioMedGPT,它运用了生物医学领域中的预训练大语言模型—BioMedGPT-LM 作为桥梁,将自然语言、生物编码语言以及化学分子语言等连接起来。


BioMedGPT-LM 通过充分利用海量生物医学相关数据,对通用的基于 GPT 架构的大型语言模型进行微调,在生物医学领域发挥更出色的性能。作为连接桥梁,BioMedGPT-LM 能够连接各种生物模态的编码,包括分子、蛋白质、细胞和基因表达数据,同时还能够整合知识图谱、文档、数值实验结果以及其他格式所体现的专业知识。通过跨模态特征融合模块集成,不同模态的生物编码语言、化学分子语言与自然语言能够在同一个特征空间中实现统一融合。



BioMedGPT 架构


BioMedGPT-10B 全球首个开源可商用多模态生物医药百亿参数大模型


BioMedGPT-10B 作为 BioMedGPT 的一个开源且可商用的具体实例,建立了文本、分子和蛋白质三个模态的统一特征空间。它支持跨模态自然语言和分子语言的交互式问答,可在药物靶点探索与挖掘、先导化合物设计与优化、蛋白质设计等领域得以应用。同时,在生物医药领域的语言理解能力得到显著提升,在多个生物医药问答基准数据集上实现了 SOTA,比肩人类医学专家水平,已成功通过了美国医师资格考试。



通过精心设计的 Instruct 方法,将不同编码结构的生物医学数据映射到一个共同的文本模态特征空间中,实现了数据的统一性,不同模态的数据可以在相同的语义空间中进行比较和交互。


为了进行分子、蛋白质到自然语言的对齐,我们专门构建并开源了分子-文本问答(PubChem QA)数据集和蛋白质-文本问答(UniProt QA)数据集。分子-文本问答(PubChem QA)数据集用于对齐分子和自然语言语义,包含来自 PubChem 的 325, 754 个分子和 365, 129 个分子-文本描述。蛋白质-文本问答(UniProt QA)数据集,包含来自 UniProt 的 569, 516 个蛋白质,涵盖蛋白质相应的名称、蛋白质功能、亚细胞定位和蛋白质家族信息,共计生成了 1, 891, 506 个蛋白质序列-文本描述问答数据。以上数据集现阶段只支持单轮对话,而聂再清教授团队正在进行多轮版本的打造。


下面重点介绍模型在典型任务中的表现:


  • 分子自然语言跨模态 QA


该任务针对输入分子式生成对该分子的自然语言描述,同时支持进一步问答,用于探索该分子相关信息。在该任务下,采用了一个经典的分子文本生成任务数据集 ChEBI-20 来评估 BioMedGPT 在处理自然语言和分子语言之间的理解与转化能力。实验针对 BioMedGPT-10B 的性能与几个基线模型进行了对比。结果表明,BioMedGPT-10B 在分子文本生成任务上全面超越了通用语言模型。



  •  蛋白质自然语言跨模态 QA


该任务针对输入蛋白序列生成对该蛋白的自然语言描述,同时支持进一步问答,可支撑药物靶点发现、靶点挖掘研究。基于 UniProt QA 数据集进行了系列对比实验,显示出 BioMedGPT-10B 在蛋白质-文本跨模态理解和翻译上的能力。以下图为例,未经过对齐的 LLama2-7B-chat 无法理解输入的蛋白质数据,经过模态对齐后 LLama2-7B-chat 能通过提问获悉用户意图是想了解蛋白质功能,但仍然无法提供准确和有信息量的回答。BioMedGPT-10B 的回答则更精确、全面、明确指出了蛋白质 P52341 在胸腺嘧啶核苷酸的生物合成中的作用,更接近于标准答案。



  • 生物医药自然语言任务


BioMedGPT 的语言模型 BioMedGPT-LM 在大规模的生物医学文献数据上进行了训练,其语言能力在生物医学领域表现更为出色。在生物医药领域的三个基准数据集,USMLE、MedMCQA 和 PubMedQA 达到业内领先水平,在专业生物医学问答方面能够媲美医学专家,成功通过了美国医师资格考。


BioMedGPT-10B 在 PubMedQA 上的准确率达到 76.1%,仅比人类专家(expert)标准低 1.9%。在 OOD (Out-of-Domain)设置中,BioMedGPT-10B 的准确率为 50.4%,是除 ChatGPT 外唯一一个超过人类人工性能(pass)的模型。但值得一提的是,ChatGPT 的参数量是 BioMedGPT-10B 的 17 倍以上。


MolFM/DrugFM  小分子药物基础模型 


本次与 BioMedGPT-10B 一同开源的还有小分子药物基础模型:MolFM/DrugFM。MolFM 由 AIR 聂再清教授团队研发,是首个能够统一表示分子结构、生物医学文献以及知识库的基础模型。MolFM 引入了跨模态注意力机制,将分子结构中的原子、分子实体的邻居以及与之相关的语义文本相连接。通过在特征空间中最小化同一分子的不同模态以及具有相似结构或功能的分子之间的距离,MolFM 能够捕获局部和全局的分子知识,从而促进跨模态的理解。MolFM 的有效性已在各种下游任务中得到广泛验证,包括跨模态检索、分子描述、分子-文本生成和分子特性预测。MolFM: A Multimodal Molecular Foundation https://arxiv.org/abs/2307.09484


DrugFM 由“清华 AIR-智源联合研究中心”联合研发,AIR 兰艳艳教授团队针对小分子药物的核心组织规律与数据表示进行了更前沿的探索与更精细设计,形成有效的小分子药物预训练模型 UniMAP。同时,将该小分子药物预训练模型与已有的多模态小分子药物基础大模型 MolFM 有机结合。模型在 Cross-modal Retrieval 跨模态检索任务取得 SOTA。DrugFM 作为小分子药物基础科研模型,将持续迭代,有效支撑和提升小分子药物筛选、设计、优化等相关下游任务。


原文链接:

https://mp.weixin.qq.com/s/PVBA4AAcbCdHg_fXKA58uA

2023-08-21 14:596216

评论

发布
暂无评论
发现更多内容

如何建立基于YashanDB的统一数据平台

数据库砖家

AI出海第一步省下200刀! 亲测Stripe Atlas注册美国公司

阿星AI工作室

产品 AI 独立开发 出海

谷歌Chrome多重漏洞可导致任意代码执行

qife122

网络安全 漏洞分析

如何解读YashanDB数据分析能力

数据库砖家

ZoneAlarm防火墙强制更新引发用户不满

qife122

网络安全 防火墙 软件更新

设备点检 设备维护经验总结(8)

万里无云万里天

工业 设备维护 工厂运维 设备点检

Snagit for mac(最强大的屏幕截图软件)v2025

春天的风暖暖的

智能图像清晰修复软件Perfectly Clear Workbench中文

春天的风暖暖的

如何构建基于YashanDB数据库的实时分析平台

数据库砖家

如何结合YashanDB数据库塑造数据驱动型企业

数据库砖家

大数据-113 Flink 源算子详解:非并行源(Non-Parallel Source)的原理与应用场景

武子康

Java 大数据 flink spark 分布式

绕过Cloudflare IP白名单限制的两种实用方法

qife122

网络安全 IP白名单

Scrivener for Mac:专业写作者的全能创作工具

春天的风暖暖的

Noir – Dark Mode for Safari:Safari浏览器的智能暗色模式扩展

春天的风暖暖的

如何管理YashanDB中的数据访问权限

数据库砖家

如何结合YashanDB数据库构建智能供应链平台

数据库砖家

DMG Canvas for Mac:专业级DMG磁盘映像定制工具

春天的风暖暖的

Path Finder for Mac(强大的文件管理工具)v2202中文

春天的风暖暖的

修复不安全软件生命周期——将安全融入现有开发流程的实用技巧

qife122

DevSecOps 安全开发 软件安全

工业数字化 信息化经验总结(10)

万里无云万里天

数字化 信息化 工业 工厂运维

如何构建基于YashanDB数据库的数据仓库

数据库砖家

基于YashanDB数据库构建智能客服系统的技术指南

数据库砖家

如何在Mikrotik路由器上配置DHCP-PD客户端实现IPv6前缀委派

qife122

网络配置 ipv6 DHCP-PD Mikrotik

游戏启动错误代码分析与解决方案

qife122

游戏故障排除 Windows系统修复

构建一个高效的 YashanDB 环境

数据库砖家

在Incus容器中运行Docker的完整指南

qife122

容器技术 Incus

RAW Power for Mac:基于Apple RAW引擎的专业图像处理工具

春天的风暖暖的

如何解决YashanDB使用中的常见问题

数据库砖家

告别相机!OpenAI用Sora2重新发明了短视频!

阿星AI工作室

人工智能 AI AIGC aid ai短视频

在AI技术唾手可得的时代,挖掘新需求成为创新关键——某知名AI创作工具需求洞察

qife122

需求分析 AI创作

在AI技术唾手可得的时代,挖掘新需求成为制胜关键——某知名Linux命令学习框架需求探索

qife122

开源项目 需求分析 linux命令 技术文档

水木分子联合清华AIR、智源开源系列生物医药大模型_生成式 AI_InfoQ精选文章