蛋白质结构预测领域又有新发现了。
2022 年 7 月 28 日,DeepMind 的 AlphaFold 工具成功预测出超过 100 万个物种的 2.14 亿个蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。近日,Meta 在这一方向又有新突破:通过 AI 技术成功预测了来自细菌、病毒和其他尚未分类的微生物中,超 6 亿种蛋白质的结构。
Meta AI 蛋白质团队的研究负责人 Alexander Rives 表示:“这些结构来自于我们了解最少的那一部分蛋白质,这些蛋白质太神秘了。我认为这些预测结果能够为生物学的深入研究提供潜力。”
为什么了解和预测蛋白质折叠结构很重要?
蛋白质作为一切生命活动的基础物质,其重要性不言而喻。
事实上,蛋白质是一种复杂的“生物机器”。每一种蛋白质都有其独特的功能:有的负责在机体内运输代谢物质,比如血红蛋白;有的负责加速生物化学反应,比如淀粉酶;有的负责调节新陈代谢,比如胰岛素;有的则直接构成生物机体组织,比如胶原蛋白等。蛋白质之所以能够承担多种多样的功能,很大程度上是因为它们具有丰富而复杂的空间结构。
虽然功能多种多样,但其实所有已知的蛋白质的结构都是由 21 种已知的氨基酸构成的。这些氨基酸当中也只包含碳、氢、氧、氮、硫和硒这六种元素。但是,这些氨基酸在链条上的排列组合、链条的折叠方式,以及最终折叠的结构,决定了蛋白质的最终功能。而蛋白质的 3D 形状或结构决定了它在细胞中的功能。
因此,准确了解蛋白质的结构对于生命科学、环境科学等人类目前面对的重要课题都十分关键。
但在 DeepMind 的 AlphaFold 工具出现以前,人类对地球上的某些蛋白质结构仍知之甚少。而随着 Meta AI 又有新发现,人类对于蛋白质结构乃至生物学,也将有了全新的理解。
基于 150 亿参数语言模型,Meta AI 成功预测超 6 亿种蛋白质结构
据了解,Meta 本次用于预测蛋白质结构的语言模型拥有 150 亿参数,这也是迄今为止最大的蛋白质语言模型。
通常来说,语言模型是基于大量文本来做训练的。为了将这种模型应用于蛋白质预测领域,Meta AI 蛋白质团队的研究负责人 Alexander Rives 和他的同事们为模型输入了已知蛋白质的序列。这些蛋白质可以用由 20 种不同氨基酸组成的链条来表达,每一种氨基酸都用一个字母来表示。然后这个网络就学会了“自动完成”,给它输入一部分氨基酸结构被遮蔽的蛋白质分子,它就能预测出剩余的结构。
Rives 表示,这种训练过程让网络对蛋白质序列有了直观的了解——这些蛋白质序列保存了有关其结构的信息。第二步工作受到了 DeepMind 的 AlphaFold 工具的启发,就是将这些见解与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。
Meta 将这个网络命名为 ESMFold。据其介绍,ESMFold 虽然预测准确性不如 AlphaFold,但在预测速度上,比 AlphaFold 快了大约 60 倍。
因此,Meta 将结构预测工作扩展到更大的数据库范围内。比如,他们将 ESMFold 应用于来自环境来源(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA 数据库。这个数据库中,绝大多数编码潜在蛋白质的 DNA 条目来自从未被人工培育过,科学上知之甚少的生物体。
最终,ESMFold 预测了 6.17 亿种蛋白质结构,并且只用了 2 周时间,而 AlphaFold 可能需要几分钟才能生成一个预测。
值得一提的是,这套模型的底层代码是免费开放的,任何人都可以免费使用这些预测结果。
据介绍,在 ESMFold 预测的 6.17 亿种蛋白质结构中,有超过三分之一的结果是高质量的,也就是说,研究人员可以确信整体的蛋白质结构是正确的,并且在某些情况下可以辨别出更精细的原子级细节。
此外,这些结构中有几百万个结果是全新的,与通过实验确定的蛋白质结构数据库,或通过已知生物体预测的 AlphaFold 数据库中的所有内容都不一样。
首尔国立大学的计算生物学家 Martin Steinegger 表示,AlphaFold 数据库的很大一部分蛋白质由几乎相同的结构组成,而“宏基因组”数据库应该包含了很多未知的蛋白质结构。“现在我们有了一个很好的机会来探索更多未知的奥秘。”
不过,也有人对 ESMFold 的预测结果表示质疑。
马萨诸塞州剑桥市哈佛大学的进化生物学家 Sergey Ovchinnikov 认为,有些预测结果可能缺乏明确的参考;而另一些预测结果可能是非编码 DNA,只不过被误认为是蛋白质编码材料了。他表示:“看起来仍有一半以上的蛋白质是我们一无所知的。”
评论