实验室的冷藏柜里,那台1970年代的X射线衍射仪早已退役,但看着它斑驳的外壳,依然能感受到半个世纪前研究者们解析首个蛋白质三维结构时的激动。从那时起,预测蛋白质如何折叠成特定三维结构,就成了结构生物学领域的"圣杯"。
1970年代,Christian Anfinsen提出的"热力学假说"奠定了理论基础——蛋白质的氨基酸序列决定了其三维结构。这个看似简单的原理,实际操作起来却像在黑暗中拼凑百万片拼图。早期的研究者只能依靠物理化学原理和简化的分子模型,预测结果往往与实际结构相去甚远。
1980年代,同源建模技术带来了转机。研究者发现,如果目标蛋白与已知结构的蛋白序列相似度超过30%,就能基于已知结构构建相对可靠的模型。这套方法在制药领域大放异彩,默克公司的研发团队曾用它成功预测了HIV蛋白酶的结构,为抗艾滋病药物设计打开了大门。
不过,同源建模的局限性也很明显——对于没有相似结构的蛋白质,这套方法就束手无策了。
1990年代中期,两种路径开始分道扬镳。一边是基于物理原理的"从头预测",通过计算原子间的相互作用力来模拟折叠过程;另一边则转向机器学习,从已知结构中挖掘序列与结构的对应规律。
罗斯阿拉莫斯国家实验室在1999年发起的CASP竞赛,成了技术发展的试金石。每两年一次的比拼中,各团队的方法精度从最初的惨不忍睹,到缓慢提升,再到近年来的突飞猛进,完整记录了这条技术路线的演进轨迹。
转折点出现在2018年。AlphaFold在CASP13竞赛中展示了惊人的准确性,其核心创新在于将注意力机制引入蛋白质结构预测。两年后的AlphaFold2更是将精度推向了实验方法的水平,它不再试图模拟折叠过程,而是直接学习进化过程中隐含的结构信息。
如今,打开AlphaFold数据库,就像打开了一本蛋白质结构的百科全书。曾经需要数月甚至数年实验才能解析的结构,现在点几下鼠标就能获得。这种便利性正在改变整个生命科学的研究范式——结构生物学家不再需要从零开始解析每个蛋白,而是可以直接基于预测结果设计实验验证。
那个冷藏柜里的老仪器静静伫立着,见证了一个时代的技术更迭。从手工测量到AI预测,蛋白质结构预测的历程,恰如从烛光到LED的照明革命。
参与讨论
那个老仪器让人感慨,科技发展真快啊!
同源建模那段在制药领域的应用太重要了,挽救了很多生命。
不太明白“从头预测”和机器学习的区别,能再通俗点解释下吗?
哈哈,所以以后做实验的学生可以少掉点头发了?😄
一直在吃瓜等CASP竞赛的结果,每次看排名都挺刺激。
AlphaFold数据库简直是科研神器,希望国内也能有类似的开源项目。