卷起来了！Meta AI用2周时间预测超6亿种蛋白质结构，速度比AlphaFold快60倍_AI&大模型_凌敏

【AICon】如何构建高效的 RAG 系统？RAG 技术在实际应用中遇到的挑战及应对策略？>>> 了解详情 



 写点什么

卷起来了！Meta AI用2周时间预测超6亿种蛋白质结构，速度比AlphaFold快60倍

蛋白质结构预测领域又有新发现了。

2022 年 7 月 28 日，DeepMind 的 AlphaFold 工具成功预测出超过 100 万个物种的 2.14 亿个蛋白质结构，几乎涵盖了地球上所有已知的蛋白质。近日，Meta 在这一方向又有新突破：通过 AI 技术成功预测了来自细菌、病毒和其他尚未分类的微生物中，超 6 亿种蛋白质的结构。

Meta AI 蛋白质团队的研究负责人 Alexander Rives 表示：“这些结构来自于我们了解最少的那一部分蛋白质，这些蛋白质太神秘了。我认为这些预测结果能够为生物学的深入研究提供潜力。”

为什么了解和预测蛋白质折叠结构很重要？

蛋白质作为一切生命活动的基础物质，其重要性不言而喻。

事实上，蛋白质是一种复杂的“生物机器”。每一种蛋白质都有其独特的功能：有的负责在机体内运输代谢物质，比如血红蛋白；有的负责加速生物化学反应，比如淀粉酶；有的负责调节新陈代谢，比如胰岛素；有的则直接构成生物机体组织，比如胶原蛋白等。蛋白质之所以能够承担多种多样的功能，很大程度上是因为它们具有丰富而复杂的空间结构。

虽然功能多种多样，但其实所有已知的蛋白质的结构都是由 21 种已知的氨基酸构成的。这些氨基酸当中也只包含碳、氢、氧、氮、硫和硒这六种元素。但是，这些氨基酸在链条上的排列组合、链条的折叠方式，以及最终折叠的结构，决定了蛋白质的最终功能。而蛋白质的 3D 形状或结构决定了它在细胞中的功能。

因此，准确了解蛋白质的结构对于生命科学、环境科学等人类目前面对的重要课题都十分关键。

但在 DeepMind 的 AlphaFold 工具出现以前，人类对地球上的某些蛋白质结构仍知之甚少。而随着 Meta AI 又有新发现，人类对于蛋白质结构乃至生物学，也将有了全新的理解。

基于 150 亿参数语言模型，Meta AI 成功预测超 6 亿种蛋白质结构

据了解，Meta 本次用于预测蛋白质结构的语言模型拥有 150 亿参数，这也是迄今为止最大的蛋白质语言模型。

通常来说，语言模型是基于大量文本来做训练的。为了将这种模型应用于蛋白质预测领域，Meta AI 蛋白质团队的研究负责人 Alexander Rives 和他的同事们为模型输入了已知蛋白质的序列。这些蛋白质可以用由 20 种不同氨基酸组成的链条来表达，每一种氨基酸都用一个字母来表示。然后这个网络就学会了“自动完成”，给它输入一部分氨基酸结构被遮蔽的蛋白质分子，它就能预测出剩余的结构。

Rives 表示，这种训练过程让网络对蛋白质序列有了直观的了解——这些蛋白质序列保存了有关其结构的信息。第二步工作受到了 DeepMind 的 AlphaFold 工具的启发，就是将这些见解与已知蛋白质结构和序列之间关系的信息相结合，从蛋白质序列中生成预测结构。

Meta 将这个网络命名为 ESMFold。据其介绍，ESMFold 虽然预测准确性不如 AlphaFold，但在预测速度上，比 AlphaFold 快了大约 60 倍。

因此，Meta 将结构预测工作扩展到更大的数据库范围内。比如，他们将 ESMFold 应用于来自环境来源（包括土壤、海水、人类肠道、皮肤和其他微生物栖息地）的批量测序“宏基因组”DNA 数据库。这个数据库中，绝大多数编码潜在蛋白质的 DNA 条目来自从未被人工培育过，科学上知之甚少的生物体。

最终，ESMFold 预测了 6.17 亿种蛋白质结构，并且只用了 2 周时间，而 AlphaFold 可能需要几分钟才能生成一个预测。

值得一提的是，这套模型的底层代码是免费开放的，任何人都可以免费使用这些预测结果。

据介绍，在 ESMFold 预测的 6.17 亿种蛋白质结构中，有超过三分之一的结果是高质量的，也就是说，研究人员可以确信整体的蛋白质结构是正确的，并且在某些情况下可以辨别出更精细的原子级细节。

此外，这些结构中有几百万个结果是全新的，与通过实验确定的蛋白质结构数据库，或通过已知生物体预测的 AlphaFold 数据库中的所有内容都不一样。

首尔国立大学的计算生物学家 Martin Steinegger 表示，AlphaFold 数据库的很大一部分蛋白质由几乎相同的结构组成，而“宏基因组”数据库应该包含了很多未知的蛋白质结构。“现在我们有了一个很好的机会来探索更多未知的奥秘。”

不过，也有人对 ESMFold 的预测结果表示质疑。

马萨诸塞州剑桥市哈佛大学的进化生物学家 Sergey Ovchinnikov 认为，有些预测结果可能缺乏明确的参考；而另一些预测结果可能是非编码 DNA，只不过被误认为是蛋白质编码材料了。他表示：“看起来仍有一半以上的蛋白质是我们一无所知的。”

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
北京 · QCon全球软件开发大会 2024.4.18-20
北京 · AICon 全球人工智能与大模型应用峰会 2024.5.17-18
深圳 · ArchSummit全球架构师峰会 2024.6.14-15
上海 · FCon全球金融科技大会 2024.8.16-17
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景

卷起来了！Meta AI 用 2 周时间预测超 6 亿种蛋白质结构，速度比 AlphaFold 快 60 倍

为什么了解和预测蛋白质折叠结构很重要？

基于 150 亿参数语言模型，Meta AI 成功预测超 6 亿种蛋白质结构

评论

11 步完美排查服务器! 是否已经被入侵

拍照被嫌弃，他用分布式技术开发了一款自拍神器

5分钟速读之Rust权威指南（七）

智慧公安微警务APP搭建,公安信息化建设

专访新腾数致研发总监金涛：新思想、新工具与新效率

支付网关整体架构图

中国数字货币释放利好消息！

“产学合作，协同育人”——安谋中国集成电路人才发展趋势沙龙圆满举行

架构学习笔记：架构设计3原则

【得物技术】统一OLAP查询平台之语义层

阿里专家离职带出来的Java面试全秘籍，我看了三个月，就收到了京东的offer

超详细！看完阿里大师的Java成长笔记后，差距真不是一点点

来自一个DBA的肺腑之言

逻辑回归 - DAY 11

招行票付通对接总体流程

对账模块和赊购退款、还款流程

C#常用特性和快捷键

CODING 首届金融科技技术交流闭门会议顺利召开

多租户如何独立进行开发测试？

波特五力模型

未来每个人的生活可能都会离不开区块链

数据仓库如何确定主题域？

网络攻防学习笔记 Day21

牛！大佬都在用。Ngrok + Metasploit = 暂时性隐蔽C2

521的祝福-北爱的回忆

只需三步，开启 API 文档简洁之美

apache dubbo 自定义全局统一的异常处理器

后台开发：核心技术与应用实践 — C++

显示器的未知之海：从电脑窗口到数字世界的Mate级探险

区块链专家与媒体面对面 | “区块链让数据产生价值”

边缘计算应用领域

创作场景

卷起来了！Meta AI 用 2 周时间预测超 6 亿种蛋白质结构，速度比 AlphaFold 快 60 倍

为什么了解和预测蛋白质折叠结构很重要？

基于 150 亿参数语言模型，Meta AI 成功预测超 6 亿种蛋白质结构

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载