苹果掀桌,扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
36氪·2025-09-28 07:59

蛋白质折叠模型技术突破 - 研究人员构建了一个名为SimpleFold的全新蛋白质折叠模型架构,其核心是基于标准Transformer模块与自适应层,旨在直接通过氨基酸序列预测蛋白质的三维原子结构 [1][4] - 该模型采用“流匹配”生成方法,将结构生成过程视为一个随时间推进的旅程,通过常微分方程进行轨迹积分,最终从噪声中生成清晰结构 [6] - SimpleFold的设计理念与AlphaFold2等经典模型不同,它摒弃了三角更新、成对表示和多序列比对等复杂且高度专业化的组件,转而采用通用架构让模型从数据中自主学习 [3][4] 模型架构与设计创新 - SimpleFold架构由三部分组成:轻量原子编码器、重型残基主干网络和轻量原子解码器,这种“细—粗—细”的层级设计在预测速度与精度之间取得了良好平衡 [8][10] - 模型完全基于非等变的Transformer构建,不依赖等变架构,为应对蛋白质结构的旋转对称性,在训练时引入了SO(3)数据增强 [10] - 与以往方法不同,SimpleFold既不使用对表示,也不依赖多序列比对或蛋白语言模型的注意力初始化,实现了架构上的简化 [10] 模型训练与扩展性 - 为研究框架的扩展能力,研究人员训练了参数规模从1亿到30亿不等的多个SimpleFold模型,包括100M、360M、700M、1.1B、1.6B和3B版本 [11] - 训练策略借鉴了AlphaFold2,在同一蛋白的每张GPU上复制多份,各自抽取不同时间步,再从多个蛋白累积梯度,实验表明此策略能带来更稳定的梯度和更优性能 [12][13] - 随着模型规模增大,研究人员对原子编码器、解码器和残基主干网络进行了全链路升级,模型做大不仅是增加参数 [11] - 研究证明SimpleFold具有良好的可扩展性,更大规模的模型在训练资源更充足的情况下表现更佳,为通用生成模型在生物领域大规模应用指明了路径 [35] 模型性能评估(基准测试) - 在CAMEO22和CASP14这两个广泛使用的蛋白质结构预测基准上评估了SimpleFold的性能 [14] - 在CAMEO22基准上,SimpleFold的表现与目前最先进的模型相当,如ESMFold、RoseTTAFold2和AlphaFold2 [19] - 尽管架构简洁,但SimpleFold在多数指标上能达到RoseTTAFold2和AlphaFold2性能的95%以上 [20] - 在更具挑战性的CASP14基准上,SimpleFold甚至超越了ESMFold [21] - 模型跨基准的性能下降更小,说明其不依赖多序列比对也能稳健泛化,能够应对更复杂的结构预测任务 [22] - 即便是最小的SimpleFold-100M模型,在CAMEO22上也能实现ESMFold性能的90%以上,验证了基于通用结构模块构建蛋白质折叠模型的可行性 [23] 结构集合生成能力 - 采用生成式目标使SimpleFold能够直接建模结构分布,而非仅输出单一结构,因此可以同一条氨基酸序列生成多个不同构象组成的结构集合 [28] - 在ATLAS数据集上的测试表明,SimpleFold在多个评估指标上持续优于同样依赖ESM表征的ESMFlow-MD模型 [31] - 在暴露残基与互信息矩阵等关键可观测性指标上,SimpleFold也胜过AlphaFlow-MD,这有助于挖掘药物发现中常见的“隐性口袋” [31] - 在Apo/holo数据集上,SimpleFold取得了当前最优表现,显著超越了AlphaFlow等强大的多序列比对方法 [32] - 在Fold-switch数据集上,SimpleFold的表现与ESMFlow相当甚至更优 [33] - 模型的结构集合生成性能随着模型规模的增加而提升,展示了该框架在此方面的巨大潜力 [33]