Workflow
人工智能在蛋白质设计中的应用
icon
搜索文档
英伟达实现原子级蛋白质设计突破,高精度生成多达800个残基的蛋白质
36氪· 2025-07-18 19:46
核心观点 - NVIDIA与Mila研究所联合提出La-Proteina,一种基于部分潜在流匹配的原子级蛋白质设计方法,解决了蛋白质生成中侧链维度可变性的关键挑战[1][2] - 该方法结合显式backbone建模与固定大小的残基潜在表示,实现序列和原子侧链信息的联合生成,支持多达800个残基的大型蛋白质设计[4][9] - 在无条件蛋白质生成和原子基序支架设计任务中,La-Proteina性能全面超越现有基线方法,达到SOTA水平[13][16] 技术架构 - **模型设计**:采用部分隐式表示框架,将残基原子细节编码至固定长度隐空间,同时保持α-碳坐标的显式建模,规避混合连续-分类建模难题[9] - **核心组件**:包含编码器、解码器和去噪器三个神经网络,均基于对偏置注意力机制的Transformer架构,共享参数实现高效协同[10] - **训练机制**:采用两阶段策略——先通过β加权ELBO优化VAE,再通过条件流匹配目标训练去噪器网络,使用独立插值时间tx/tz增强性能[12] 实验数据 - **数据集**:使用两个AFDB子集——55万样本的聚类集(残基32-512)和超400万样本的长序列集(残基384-896),通过Atom37标准化表示统一处理结构信息[7][8] - **无条件生成**:生成蛋白质的β-折叠含量显著提升,MolProbity评估显示结构有效性得分优于所有基线,侧链二面角分布更接近真实蛋白质[15] - **基序支架设计**:在4种实验设置(全原子/尖端原子、索引/非索引)下均大幅领先Protpardelle,非索引版本对多残基段基序适应性更强[16] 行业应用 - **学术进展**:扩散模型(如RFDiffusion)和语言模型推动蛋白质序列-结构联合建模,Proteina等成果验证了流模型在大规模结构生成中的扩展性[17] - **企业实践**:Cradle通过湿实验室数据训练专有生成式AI简化蛋白质设计流程,Xaira Therapeutics结合机器学习开发适配分子疗法[18]