【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

卷起来了!Meta AI 用 2 周时间预测超 6 亿种蛋白质结构,速度比 AlphaFold 快 60 倍

  • 2022-11-03
    北京
  • 本文字数:1768 字

    阅读完需:约 6 分钟

卷起来了!Meta AI用2周时间预测超6亿种蛋白质结构,速度比AlphaFold快60倍

蛋白质结构预测领域又有新发现了。

 

2022 年 7 月 28 日,DeepMind 的 AlphaFold 工具成功预测出超过 100 万个物种的 2.14 亿个蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。近日,Meta 在这一方向又有新突破:通过 AI 技术成功预测了来自细菌、病毒和其他尚未分类的微生物中,超 6 亿种蛋白质的结构。

 

Meta AI 蛋白质团队的研究负责人 Alexander Rives 表示:“这些结构来自于我们了解最少的那一部分蛋白质,这些蛋白质太神秘了。我认为这些预测结果能够为生物学的深入研究提供潜力。”

为什么了解和预测蛋白质折叠结构很重要?

 

蛋白质作为一切生命活动的基础物质,其重要性不言而喻。

 

事实上,蛋白质是一种复杂的“生物机器”。每一种蛋白质都有其独特的功能:有的负责在机体内运输代谢物质,比如血红蛋白;有的负责加速生物化学反应,比如淀粉酶;有的负责调节新陈代谢,比如胰岛素;有的则直接构成生物机体组织,比如胶原蛋白等。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构。

 

虽然功能多种多样,但其实所有已知的蛋白质的结构都是由 21 种已知的氨基酸构成的。这些氨基酸当中也只包含碳、氢、氧、氮、硫和硒这六种元素。但是,这些氨基酸在链条上的排列组合、链条的折叠方式,以及最终折叠的结构,决定了蛋白质的最终功能。而蛋白质的 3D 形状或结构决定了它在细胞中的功能。

 

因此,准确了解蛋白质的结构对于生命科学、环境科学等人类目前面对的重要课题都十分关键。

 

但在 DeepMind 的 AlphaFold 工具出现以前,人类对地球上的某些蛋白质结构仍知之甚少。而随着 Meta AI 又有新发现,人类对于蛋白质结构乃至生物学,也将有了全新的理解。

 

基于 150 亿参数语言模型,Meta AI 成功预测超 6 亿种蛋白质结构

 

据了解,Meta 本次用于预测蛋白质结构的语言模型拥有 150 亿参数,这也是迄今为止最大的蛋白质语言模型。

 

通常来说,语言模型是基于大量文本来做训练的。为了将这种模型应用于蛋白质预测领域,Meta AI 蛋白质团队的研究负责人 Alexander Rives 和他的同事们为模型输入了已知蛋白质的序列。这些蛋白质可以用由 20 种不同氨基酸组成的链条来表达,每一种氨基酸都用一个字母来表示。然后这个网络就学会了“自动完成”,给它输入一部分氨基酸结构被遮蔽的蛋白质分子,它就能预测出剩余的结构。

 

Rives 表示,这种训练过程让网络对蛋白质序列有了直观的了解——这些蛋白质序列保存了有关其结构的信息。第二步工作受到了 DeepMind 的 AlphaFold 工具的启发,就是将这些见解与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。

 

Meta 将这个网络命名为 ESMFold。据其介绍,ESMFold 虽然预测准确性不如 AlphaFold,但在预测速度上,比 AlphaFold 快了大约 60 倍

 

因此,Meta 将结构预测工作扩展到更大的数据库范围内。比如,他们将 ESMFold 应用于来自环境来源(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA 数据库。这个数据库中,绝大多数编码潜在蛋白质的 DNA 条目来自从未被人工培育过,科学上知之甚少的生物体。

 

最终,ESMFold 预测了 6.17 亿种蛋白质结构,并且只用了 2 周时间,而 AlphaFold 可能需要几分钟才能生成一个预测。

 

值得一提的是,这套模型的底层代码是免费开放的,任何人都可以免费使用这些预测结果。

 

据介绍,在 ESMFold 预测的 6.17 亿种蛋白质结构中,有超过三分之一的结果是高质量的,也就是说,研究人员可以确信整体的蛋白质结构是正确的,并且在某些情况下可以辨别出更精细的原子级细节。

 

此外,这些结构中有几百万个结果是全新的,与通过实验确定的蛋白质结构数据库,或通过已知生物体预测的 AlphaFold 数据库中的所有内容都不一样。

 

首尔国立大学的计算生物学家 Martin Steinegger 表示,AlphaFold 数据库的很大一部分蛋白质由几乎相同的结构组成,而“宏基因组”数据库应该包含了很多未知的蛋白质结构。“现在我们有了一个很好的机会来探索更多未知的奥秘。”

 

不过,也有人对 ESMFold 的预测结果表示质疑。

 

马萨诸塞州剑桥市哈佛大学的进化生物学家 Sergey Ovchinnikov 认为,有些预测结果可能缺乏明确的参考;而另一些预测结果可能是非编码 DNA,只不过被误认为是蛋白质编码材料了。他表示:“看起来仍有一半以上的蛋白质是我们一无所知的。”

 

2022-11-03 14:072594

评论

发布
暂无评论
发现更多内容

11 步完美排查服务器! 是否已经被入侵

Thrash

安全

拍照被嫌弃,他用分布式技术开发了一款自拍神器

科技汇

5分钟速读之Rust权威指南(七)

wzx

rust

智慧公安微警务APP搭建,公安信息化建设

专访新腾数致研发总监金涛:新思想、新工具与新效率

CODING DevOps

敏捷开发 研发团队

支付网关整体架构图

try catch

支付 支付网关

中国数字货币释放利好消息!

CECBC

“产学合作,协同育人”——安谋中国集成电路人才发展趋势沙龙圆满举行

脑极体

架构学习笔记:架构设计3原则

风翱

架构 5月日更

【得物技术】统一OLAP查询平台之语义层

得物技术

OLAP 查询 得物技术 平台 语义

阿里专家离职带出来的Java面试全秘籍,我看了三个月,就收到了京东的offer

Java 程序员 架构 面试 计算机

超详细!看完阿里大师的Java成长笔记后,差距真不是一点点

Java 程序员 架构 面试

来自一个DBA的肺腑之言

BinTools图尔兹

数据库 运维自动化 数据安全 dba

逻辑回归 - DAY 11

Qien Z.

线性回归 逻辑回归 5月日更 逻辑函数

招行票付通对接总体流程

try catch

支付 商业票据

对账模块和赊购退款、还款流程

try catch

支付 退款 对账 赊购

C#常用特性和快捷键

fox

520单身福利

CODING 首届金融科技技术交流闭门会议顺利召开

CODING DevOps

DevOps DevSecOps 代码安全

多租户如何独立进行开发测试?

paraboy1

波特五力模型

石云升

创业 战略 职场经验 5月日更

未来每个人的生活可能都会离不开区块链

CECBC

数据仓库如何确定主题域?

数据社

数据仓库 5月日更

网络攻防学习笔记 Day21

穿过生命散发芬芳

5月日更 网络攻防

牛!大佬都在用。Ngrok + Metasploit = 暂时性隐蔽C2

Thrash

安全

521的祝福-北爱的回忆

数据一哥

520单身福利 520 单身福利

只需三步,开启 API 文档简洁之美

CODING DevOps

API

apache dubbo 自定义全局统一的异常处理器

try catch

后台开发:核心技术与应用实践 — C++

奔着腾讯去

c++ 面向对象 服务器开发 C++后台开发

显示器的未知之海:从电脑窗口到数字世界的Mate级探险

脑极体

区块链专家与媒体面对面 | “区块链让数据产生价值”

CECBC

边缘计算应用领域

lenka

5月日更

卷起来了!Meta AI用2周时间预测超6亿种蛋白质结构,速度比AlphaFold快60倍_AI&大模型_凌敏_InfoQ精选文章