水木分子联合清华AIR、智源开源系列生物医药大模型_生成式 AI

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

水木分子联合清华大学智能产业研究院（AIR）开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B，该模型在生物医药专业领域问答能力比肩人类专家水平，在自然语言、分子、蛋白质跨模态问答任务上达到 SOTA。同时，水木分子、AIR 联合开源了全球首个免费可商用、生物医药专用 Llama 2 大语言模型 BioMedGPT-LM-7B。“AIR-智源健康计算联合研究中心” 合作开源了小分子药物基础模型 DrugFM。此次开源的生物医药基础模型重科研、可商用，为生物医药研究与应用提供大模型底座。

开源地址：

https://github.com/PharMolix/OpenBioMed

https://huggingface.co/PharMolix/BioMedGPT-LM-7B

研究动机打通自然语言与化学、生物编码语言

清华大学智能产业研究院（AIR）首席研究员、水木分子首席科学家聂再清表示：“大模型最令我们惊喜的是智能涌现与触类旁通的能力。生命现象本质也是一种自然进化的语言编码，如果能够将人类总结的知识与氨基酸、分子、蛋白数据压缩到统一的大模型框架内进行编码与学习，有望能够理解生物编码的语言机制，进而从底层推动与生命科学相关的研究与应用。”

聂再清教授团队提出了一种全新的多模态语义理解框架 BioMedGPT，它运用了生物医学领域中的预训练大语言模型—BioMedGPT-LM 作为桥梁，将自然语言、生物编码语言以及化学分子语言等连接起来。

BioMedGPT-LM 通过充分利用海量生物医学相关数据，对通用的基于 GPT 架构的大型语言模型进行微调，在生物医学领域发挥更出色的性能。作为连接桥梁，BioMedGPT-LM 能够连接各种生物模态的编码，包括分子、蛋白质、细胞和基因表达数据，同时还能够整合知识图谱、文档、数值实验结果以及其他格式所体现的专业知识。通过跨模态特征融合模块集成，不同模态的生物编码语言、化学分子语言与自然语言能够在同一个特征空间中实现统一融合。

BioMedGPT 架构

BioMedGPT-10B 全球首个开源可商用多模态生物医药百亿参数大模型

BioMedGPT-10B 作为 BioMedGPT 的一个开源且可商用的具体实例，建立了文本、分子和蛋白质三个模态的统一特征空间。它支持跨模态自然语言和分子语言的交互式问答，可在药物靶点探索与挖掘、先导化合物设计与优化、蛋白质设计等领域得以应用。同时，在生物医药领域的语言理解能力得到显著提升，在多个生物医药问答基准数据集上实现了 SOTA，比肩人类医学专家水平，已成功通过了美国医师资格考试。

通过精心设计的 Instruct 方法，将不同编码结构的生物医学数据映射到一个共同的文本模态特征空间中，实现了数据的统一性，不同模态的数据可以在相同的语义空间中进行比较和交互。

为了进行分子、蛋白质到自然语言的对齐，我们专门构建并开源了分子-文本问答（PubChem QA）数据集和蛋白质-文本问答（UniProt QA）数据集。分子-文本问答（PubChem QA）数据集用于对齐分子和自然语言语义，包含来自 PubChem 的 325, 754 个分子和 365, 129 个分子-文本描述。蛋白质-文本问答（UniProt QA）数据集，包含来自 UniProt 的 569, 516 个蛋白质，涵盖蛋白质相应的名称、蛋白质功能、亚细胞定位和蛋白质家族信息，共计生成了 1, 891, 506 个蛋白质序列-文本描述问答数据。以上数据集现阶段只支持单轮对话，而聂再清教授团队正在进行多轮版本的打造。

下面重点介绍模型在典型任务中的表现：

分子自然语言跨模态 QA

该任务针对输入分子式生成对该分子的自然语言描述，同时支持进一步问答，用于探索该分子相关信息。在该任务下，采用了一个经典的分子文本生成任务数据集 ChEBI-20 来评估 BioMedGPT 在处理自然语言和分子语言之间的理解与转化能力。实验针对 BioMedGPT-10B 的性能与几个基线模型进行了对比。结果表明，BioMedGPT-10B 在分子文本生成任务上全面超越了通用语言模型。

蛋白质自然语言跨模态 QA

该任务针对输入蛋白序列生成对该蛋白的自然语言描述，同时支持进一步问答，可支撑药物靶点发现、靶点挖掘研究。基于 UniProt QA 数据集进行了系列对比实验，显示出 BioMedGPT-10B 在蛋白质-文本跨模态理解和翻译上的能力。以下图为例，未经过对齐的 LLama2-7B-chat 无法理解输入的蛋白质数据，经过模态对齐后 LLama2-7B-chat 能通过提问获悉用户意图是想了解蛋白质功能，但仍然无法提供准确和有信息量的回答。BioMedGPT-10B 的回答则更精确、全面、明确指出了蛋白质 P52341 在胸腺嘧啶核苷酸的生物合成中的作用，更接近于标准答案。

生物医药自然语言任务

BioMedGPT 的语言模型 BioMedGPT-LM 在大规模的生物医学文献数据上进行了训练，其语言能力在生物医学领域表现更为出色。在生物医药领域的三个基准数据集，USMLE、MedMCQA 和 PubMedQA 达到业内领先水平，在专业生物医学问答方面能够媲美医学专家，成功通过了美国医师资格考。

BioMedGPT-10B 在 PubMedQA 上的准确率达到 76.1%，仅比人类专家（expert）标准低 1.9%。在 OOD （Out-of-Domain）设置中，BioMedGPT-10B 的准确率为 50.4%，是除 ChatGPT 外唯一一个超过人类人工性能（pass）的模型。但值得一提的是，ChatGPT 的参数量是 BioMedGPT-10B 的 17 倍以上。

MolFM/DrugFM 小分子药物基础模型

本次与 BioMedGPT-10B 一同开源的还有小分子药物基础模型：MolFM/DrugFM。MolFM 由 AIR 聂再清教授团队研发，是首个能够统一表示分子结构、生物医学文献以及知识库的基础模型。MolFM 引入了跨模态注意力机制，将分子结构中的原子、分子实体的邻居以及与之相关的语义文本相连接。通过在特征空间中最小化同一分子的不同模态以及具有相似结构或功能的分子之间的距离，MolFM 能够捕获局部和全局的分子知识，从而促进跨模态的理解。MolFM 的有效性已在各种下游任务中得到广泛验证，包括跨模态检索、分子描述、分子-文本生成和分子特性预测。MolFM: A Multimodal Molecular Foundation https://arxiv.org/abs/2307.09484

DrugFM 由“清华 AIR-智源联合研究中心”联合研发，AIR 兰艳艳教授团队针对小分子药物的核心组织规律与数据表示进行了更前沿的探索与更精细设计，形成有效的小分子药物预训练模型 UniMAP。同时，将该小分子药物预训练模型与已有的多模态小分子药物基础大模型 MolFM 有机结合。模型在 Cross-modal Retrieval 跨模态检索任务取得 SOTA。DrugFM 作为小分子药物基础科研模型，将持续迭代，有效支撑和提升小分子药物筛选、设计、优化等相关下游任务。

原文链接：

https://mp.weixin.qq.com/s/PVBA4AAcbCdHg_fXKA58uA

发布

暂无评论

创作场景

水木分子联合清华 AIR、智源开源系列生物医药大模型

研究动机打通自然语言与化学、生物编码语言

BioMedGPT-10B 全球首个开源可商用多模态生物医药百亿参数大模型

MolFM/DrugFM 小分子药物基础模型

评论

IT 外包可以提高企业效率和生产力吗？

【论文速读】| MoRSE：利用检索增强生成技术填补网络安全专业知识的空白

一文了解MySQL索引机制

“网络去NAT”工作的推进，对IPv6升级改造提出新要求

缓存框架 Caffeine 的可视化探索与实践

杭州银行与平凯星辰联合荣获 2024 “金鼎奖”

100行代码手把手带你实现Feisitel加密算法

强调数据价值，创建现代化全面预算管理系统

【YashanDB知识库】update/delete未选中行时，v$transaction视图没有事务，alter超时问题

杭州银行 x 平凯星辰 TiDB “行领柜面系统”荣获 2024 “金鼎奖”

软考架构师必过的学习经验

人工智能丨ReACT 推理提示

TiDB Hackathon 2024丨用 TiDB 构建未来的 AI 创新应用，瓜分超￥210,000 奖金池！

微信小程序不备案有什么后果

SIGGRAPH 2024 | 物理模拟领域再攀高峰！网易伏羲最新技术成果成功入选

在 Go 中如何让结构体不可比较？

利用 Databend 生态构建现代数据湖工作流

AI应用行业落地100例 | 移民公司Envoy Global引入AI员工赋能，效率飙升80%，开启服务新篇章

防御性编程：让系统坚不可摧

平凯星辰亮相 2024 中国国际金融展，发布银行交易明细查询白皮书

Apache Doris + Paimon 快速搭建指南｜Lakehouse 使用手册（二）

人类历史上首届AI选美，谁吃到了第一波AI审美红利？

如何定量分析 Llama 3，大模型系统工程师视角的 Transformer 架构

IT外包服务成功案例分享与优势解析

Apache Doris 2.1.5 版本正式发布

Java CompletableFuture 异步超时实现探索

技术前沿｜ICML 2024 中稿快讯！解锁大模型密态推理场景下的“百变怪”？

人工智能|ReACT 推理提示

Solana行情为何坚挺？强劲基本面和ETF预期吸引资本流入

创作场景

水木分子联合清华 AIR、智源开源系列生物医药大模型

研究动机 打通自然语言与化学、生物编码语言

BioMedGPT-10B 全球首个开源可商用多模态生物医药百亿参数大模型

MolFM/DrugFM 小分子药物基础模型

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

研究动机打通自然语言与化学、生物编码语言