确定生物分子的三维结构是现代生物学中最大的挑战之一。传统上,制药公司和研究机构经常需要花费数百万美元来确定一个分子的结构,然而即便投入如此之大,也经常遭遇失败。
AlphaFold登上Nature杂志封面
近两年,人工智能(AI)技术在生物大分子结构预测方面的应用越来越受关注。其中,谷歌旗下DeepMind的新一代AlphaFold系统在基于氨基酸序列精确预测蛋白质的3D结构方面取得的突破令业界震撼,其准确性可与使用冷冻电镜、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。
来源:Nature
蛋白质对生命至关重要,理解它们的三维结构是理解其功能的关键。然而,迄今为止,只有17%的人类蛋白质组经实验技术确定了结构。在7月22日发表于Nature杂志上的一篇论文中[1],DeepMind与合作者发布了由新一代AlphaFold预测的蛋白结构数据库(AlphaFold Protein Structure Database)。该数据库包含了AlphaFold系统预测的约35万个蛋白结构,覆盖包括人类以及20种生物学研究中常用模式生物,其中,在人类蛋白质组方面,AI对98.5%的(20 296种)人类蛋白的结构做出了预测。
RoseTTAFold系统登上Science杂志封面
除了AlphaFold,由华盛顿大学的研究团队开发的另一名为RoseTTAFold的系统在预测蛋白结构方面也取得了重要进展。同样在7月发表于Science杂志上的一篇论文显示,RoseTTAFold系统突破了AlphaFold的一个重要局限:不仅可用于预测单一蛋白质的结构,还可以用于预测蛋白复合体的构象[2]。这些成果都被认为是生命科学领域的重大突破,对于促进新药研发可能具有不可估量的意义。
AI揭示RNA结构登上Science杂志封面 | AI算法从海量错误错误形状中选出RNA分子的三维形状。RNA折叠结构的计算预测非常困难,因为已知的结构太少了。机器学习的成功为理解和设计包括药物在内的各种分子打开了大门。
在AI技术解决蛋白结构解析领域几十年来重大挑战的同时,来自斯坦福大学的科学家们也将AI技术应用到了RNA结构预测上。他们的研究成果于8月27日最新发表在Science杂志上,并登上了当期杂志的封面[3]。
来源:Science
RNA分子通常折叠成复杂的三维形状,这对它们的功能至关重要,但也因此很难通过实验手段来确定RNA的结构。由于已知的RNA结构很少,因此用算法来预测这类生物大分子的结构也非常具有挑战性。
ARES network(来源:Science)
在这项新研究中,Raphael J. L. Townshend等介绍了一种机器学习算法,可以显著改善对RNA结构的预测。尽管只使用18个已知RNA结构进行训练,这类机器学习方法(ARES网络)已能够识别准确的结构模型,与以往的方法相比,在盲RNA结构预测挑战中始终表现出最高水准。
ARES在盲RNA结构预测方面表现出最高水准(来源:Science)
ARES学习识别未预先描述的RNA结构的关键特征(来源:Science)
科学家们认为,这一机器学习方法有望加速对RNA分子结构的破解,从而帮助发现治疗目前无法治疗的疾病的药物,比如开发RNA靶向疗法。
此外,科学家们强调,最近在深度学习方面的大多数进展都需要大量的数据来进行训练。而该研究中的算法通过从少量数据中进行有效学习,克服了标准深度神经网络的一个主要限制,因此相关方法有望解决许多数据匮乏的领域中未解决的问题。
参考资料:
[1]Kathryn Tunyasuvunakool et al. Highly accurate protein structure prediction for the human proteome. Nature(2021).
[2]Minkyung Baek et al. Accurate prediction of protein structures and interactions using athree-track neural network. Science(2021).
[3]Raphael J. L. Townshend et al. Geometric deep learning of RNA structure. Science(2021).
[4] Researcher sunveil ‘phenomenal’ new AI for predicting protein structures(来源:Science)
[5]Stanford machine learning algorithm predicts biological structures more accurately than ever before(来源:Stanford University)