AlphaFold之外，又一里程碑！两周预测6亿蛋白质结构，首次通往蛋白质“暗世界”

Arcman · 发表于 2022-11-2 22:50

AlphaFold之外，又一里程碑！两周预测6亿蛋白质结构，首次通往蛋白质“暗世界”[color=rgba(0, 0, 0, 0.3)]

[color=rgba(0, 0, 0, 0.3)]Original [color=var(--weui-FG-2)]学术经纬
学术经纬 [color=var(--weui-FG-2)]2022-11-02 16:31
[color=var(--weui-FG-2)]Posted on 北京

▎药明康德内容团队编辑

蛋白质是生命的基本构造单元，而蛋白质的功能直接取决于其三维结构。随着人工智能（AI）与生物学结盟，人类预测蛋白质结构的能力在短时间内一再飞跃。就在3个月前，AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构，涵盖了地球上几乎所有已知的蛋白质结构。（相关阅读：AlphaFold又一重大飞跃！预测出地球上几乎所有蛋白质结构，数字生物学迎来全新时代）

不过，我们对蛋白质结构的探索还远未抵达终点。AlphaFold预测的是生命体内“已知”的蛋白质结构，而在自然界中，还隐藏着蛋白质宇宙的“暗物质”。在大量未知的微生物体内，就有很多不为人知的蛋白质。

现在，全新的AI系统ESMFold拉近了我们与蛋白质“暗世界”之间的距离。科技公司Meta开发的ESMFold成功预测了超过6亿个蛋白质三维结构，包含大量前所未见的结构，并且预测速度最高可达AlphaFold的60倍。这些数据组成了全球首个大规模的宏基因组蛋白质结构图谱，推动人类对蛋白质结构的理解进入全新时代。该研究目前上线于预印本平台biorxiv。

登录/注册后可看大图

▲ESMFold宏基因组图谱数据库包含了6.17亿个蛋白质结构（图片来源：ESM Metagenomic Atlas）

在土壤中、海水里甚至是我们体内，各种微生物无处不在。除了那些已经被科学家分类、注释的生命，未知的微生物中还含有更多无人知晓的蛋白质结构。宏基因组研究正是对这些环境样本进行测序，从而寻找其中的全新蛋白质。在最新研究中，ESMFold的应用对象就是宏基因组DNA数据库。

虽然ESMFold和AlphaFold都是预测蛋白质结构的工具，但两者的策略完全不同。AlphaFold的预测是基于多序列比对，需要更多额外信息；而ESMFold仅仅基于氨基酸序列，就能进行结构预测。

令人意外的是，ESMFold使用的，是一款看似毫不相干的大型语言模型。语言模型通过部分字母、单词来预测文本，而在研究团队看来，语言模型与蛋白质预测的逻辑有着相通之处。

一段文字可以拆解为一个个字母序列，而蛋白质结构同样由20个“字母”，也就是氨基酸的序列构成。另一方面，文字的理解需要结合上下文语境，而在氨基酸序列折叠成三维结构的过程中，当两个特定的氨基酸配对出现，意味着在三维结构中这两个位点就如同两块能拼在一起的拼图，很可能存在相互作用。

因此，研究团队需要做的就是通过两个步骤训练语言模型，使其学会根据氨基酸序列解读蛋白质结构。

登录/注册后可看大图

▲研究团队通过训练语言模型，实现对蛋白质结构的预测（图片来源：参考资料[2]）

他们首先将大量已知蛋白质的氨基酸序列输入模型，并特意留出一些空白。而语言模型就像是处理文本信息一样，基于直觉形成对氨基酸序列的理解，并自动填补空白、得到完整的序列。

在此基础上，研究团队基于蛋白质数据库中的大量结构，通过监督学习训练模型预测蛋白质三维结构的能力。值得一提的是，这个过程利用了AlphaFold的预测，以提升模型的预测能力。最终，Meta AI团队创建了迄今最大的蛋白质语言模型，并且能够以原子分辨率预测蛋白质结构。

由于ESMFold是直接基于氨基酸序列进行预测，相比于AlphaFold，预测流程得到了简化。其直接体现就是速度：其预测蛋白质结构的速度最高可达AlphaFold的60倍。“这意味着，我们可以将对蛋白质结构的预测扩展至更大的数据库中。”论文作者，Meta AI研究团队的领导者Alexander Rives博士说。但与此同时，ESMFold预测的准确率不及AlphaFold。

登录/注册后可看大图

▲ESMFold预测出的部分蛋白质结构（图片来源：参考资料[1]）

利用ESMFold，研究团队对来自环境土壤、海水、人的肠道与皮肤以及其他微生物栖息场所的样本进行了宏基因组DNA测序，仅用两周时间就预测出超过6.17亿个蛋白质结构。其中至少有2.25亿属于高精度预测：整体蛋白质形态正确，部分情况下可识别原子层面的细节。

在这些能进行进一步分析的高精度预测结构中，有76.8%都与数据库中已有的蛋白质结构存在显著差异，而12.6%更是与实验确定的结构完全不匹配。这些结果意味着，宏基因组中储存着大量前所未见的蛋白质结构。

登录/注册后可看大图

▲ESMFold得到的大量蛋白质结构来自蛋白质“暗世界”（图片来源：参考资料[1]）

宏基因组数据库“应该涵盖了此前未知的蛋白质宇宙中的一大部分，”未参与该研究的首尔大学计算生物学家Martin Steinegger教授说，“这项研究为探索更多黑暗的角落提供了巨大机遇。”

数十亿年前，生命演化出的蛋白质语言构成了复杂、动态的分子机器。而学会解读蛋白质语言，是理解自然世界的重要一步。

就如同显微镜的诞生，AI的参与也让科学家能在前所未有的小尺度上理解生命过程。而基于语言模型诞生的ESMFold，让人们拥有了更简洁、简单且廉价的工具，得以深入解读复杂的蛋白质语言，探索这些未知蛋白质的功能，甚至找到新的物种。“对于这些神秘的蛋白质我们所知甚少，我想这项发现为深入理解生物学提供了潜力。”Rives博士说。

参考资料：
[1] Lin, Z. et al. Preprint at BioRxivhttps://www.biorxiv.org/content/10.1101/2022.07.20.500902v2 (2022).[2] ESM Metagenomic Atlas: The first view of the ‘dark matter’ of the protein universe. Retrieved Nov 1st, 2022 from https://ai.facebook.com/blog/pro ... mfold-metagenomics/[3] AlphaFold’s new rival? Meta AI predicts shape of 600 million proteins. Retrieved Nov 1st, 2022 from https://www.nature.com/articles/d41586-022-03539-1[4] Meta’s AI could shake up how we study protein structures. Retrieved Nov 1st, 2022 from https://www.popsci.com/technolog ... folding-prediction/

		自动登录	找回密码
密码			立即注册