4 月 24 日消息,蛋白质是生命的基础,也是许多新型材料的灵感来源。然而,自然界中已知的蛋白质只是冰山一角,还有无数未被发现的蛋白质等待探索。如何快速有效地设计出具有特定结构和功能的新型蛋白质,是一个巨大的挑战。
为了解决这个问题,麻省理工学院(MIT)的研究人员利用人工智能技术,开发了一种能够生成超越自然界的新型蛋白质的方法。他们创建了一种基于机器学习的算法,可以根据预设的结构目标,预测出能够形成相应蛋白质的氨基酸序列。这些序列既有一定的与已知蛋白质相似的程度,又有一定的创新性和独特性。这些蛋白质可用于制造具有特定机械性能(如刚度或弹性)的材料,从而取代作为原料的石油或陶瓷,会大大减少碳足迹。
这项研究将于近期发表在最新一期《化学》杂志上,该研究的高级作者是 MIT 工程学院教授、土木与环境工程系和机械工程系教授、MIT-IBM 沃森人工智能实验室成员马库斯・布勒(Markus Buehler)。他表示,这种方法可以为各种应用领域提供新的解决方案,比如生物医学、材料科学、食品保鲜等。他说:“在超越自然界的蛋白质方面,这是一个巨大的设计空间,不能用人工的方法来解决。我们需要理解生命的语言,如何用 DNA 编码氨基酸,以及它们如何组合成蛋白质结构。在深度学习出现之前,这是不可能做到的。”
该研究的合作者还有布勒实验室的博士后研究员倪博(Bo Ni)和塔夫茨大学(Tufts University)生物工程系教授、工程学院院长大卫・卡普兰(David Kaplan)。
利用新型机器学习模型
蛋白质是由氨基酸串联而成的长链,这些链会折叠成三维的形状。氨基酸的顺序决定了蛋白质的结构特征,而结构特征又影响了蛋白质的力学性能。虽然科学家们已经发现了数千种经过自然选择形成的蛋白质,但他们估计还有很多氨基酸序列没有被发现。
为了加速蛋白质发现的过程,科学家们最近设计了一些深度学习模型,可以根据给定的氨基酸序列预测出相应的蛋白质三维结构。然而,反过来,根据给定的结构目标预测出相应的氨基酸序列,却是一个更复杂的问题。
布勒和他的同事们能够应对这个难题,是因为他们利用了一种新型的机器学习模型,叫做基于注意力的扩散模型(IT之家注:attention-based diffusion model)。布勒解释说,基于注意力的模型对于蛋白质设计非常重要,因为它们可以学习和捕捉长距离的关系。这在蛋白质中很常见,因为一个很长的氨基酸序列中的一个突变,可能会对整个设计产生很大的影响。
扩散模型的学习过程是通过给训练数据添加“噪声”,然后再去除“噪声”来恢复原始数据。这些模型能够生成高质量和逼真的数据,而且可以根据特定的设计目标进行调节。因此,它们比其他模型更适合满足设计要求。
利用这种架构,研究人员开发了两种机器学习模型,能够预测出满足特定结构目标的氨基酸序列。布勒说,在生物医学领域,拥有一个完全未知的蛋白质可能会带来问题,因为它的性质不太清楚。但是,在一些应用中,可能需要设计出一种与自然界中存在的蛋白质具有相似特性但不同功能的新型蛋白质。通过使用他们开发的模型,可以生成一系列的蛋白质,并通过调整一些参数来控制它们的设计,从而实现定制化的需求。
蛋白质中不同的氨基酸折叠模式,称为二级结构,会导致不同的力学性能。比如,具有 α-螺旋结构的蛋白质往往具有弹性,而具有 β-折叠结构的蛋白质通常比较刚性。在一个蛋白质中同时结合 α-螺旋和 β-折叠结构,可以创造出既有弹性又有强度的材料,就像丝绸一样。
研究人员创建了两种模型,一种是在整体结构层面上工作的,另一种是在氨基酸层面上工作的。两种模型都可以组合氨基酸来生成蛋白质。在第一种模型中,用户只需要输入想要的不同结构的百分比,比如 40% 的 α-螺旋和 60% 的 β-折叠,模型就会生成满足这些要求的序列。在第二种模型中,用户不仅要指定百分比,还要指定氨基酸结构的顺序,从而对最终产品有更大的控制力。
为了验证生成的蛋白质是否符合预期的规格,研究人员将开发的模型与一个可以预测蛋白质折叠情况的算法相连。他们用这个算法来确定生成蛋白质的三维结构,然后计算出相应的力学性能,并与预设的设计要求进行比较。这使得他们能够验证设计的蛋白质是否满足期望的规格。
创新而可靠的设计
为了评估他们的模型的有效性,研究人员将新生成的蛋白质与具有相似结构特性的已知蛋白质进行了比较。他们发现,许多生成的蛋白质与已知的氨基酸序列有大约 50% 到 60% 的重合度,表明它们是可合成的。此外,模型还产生了完全新的序列,显示了它们设计新型蛋白质的能力。
布勒说,生成和已知蛋白质之间的相似度程度表明,设计的蛋白质很可能是现实的,也是可合成的。为了验证设计蛋白质的可靠性,研究人员试图用一些物理上不可能的设计目标来欺骗模型。然而,模型并没有产生不太可能的蛋白质,而是生成了最接近可行解决方案的蛋白质。这个结果表明,模型是健壮的,即使给出不切实际的设计规范,也能找到最接近可行的解决方案。
倪博指出,机器学习算法能够发现自然界中隐藏的关系。这种能力给研究人员提供了信心,认为生成的蛋白质很可能是现实的,也是可合成的。
在下一步中,研究人员打算通过在实验室中合成它们来验证一些新设计的蛋白质。此外,他们还计划进一步改进和完善他们的模型,使它们能够设计出满足更多条件的氨基酸序列,比如特定的生物功能。
最终目标是开发一个多功能的平台,可以生成各种各样的蛋白质设计,用于各种应用领域,包括生物医学和材料科学。布勒强调说,这些应用领域需要超越自然界所提供的解决方案,比如可持续性、医药、食品、健康和材料设计等。因此,新开发的设计工具可以在解决这些问题中发挥重要作用。
关键词: