Workflow
蛋白质折叠
icon
搜索文档
苹果掀桌,扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
36氪· 2025-09-28 07:59
蛋白质折叠模型技术突破 - 研究人员构建了一个名为SimpleFold的全新蛋白质折叠模型架构,其核心是基于标准Transformer模块与自适应层,旨在直接通过氨基酸序列预测蛋白质的三维原子结构 [1][4] - 该模型采用“流匹配”生成方法,将结构生成过程视为一个随时间推进的旅程,通过常微分方程进行轨迹积分,最终从噪声中生成清晰结构 [6] - SimpleFold的设计理念与AlphaFold2等经典模型不同,它摒弃了三角更新、成对表示和多序列比对等复杂且高度专业化的组件,转而采用通用架构让模型从数据中自主学习 [3][4] 模型架构与设计创新 - SimpleFold架构由三部分组成:轻量原子编码器、重型残基主干网络和轻量原子解码器,这种“细—粗—细”的层级设计在预测速度与精度之间取得了良好平衡 [8][10] - 模型完全基于非等变的Transformer构建,不依赖等变架构,为应对蛋白质结构的旋转对称性,在训练时引入了SO(3)数据增强 [10] - 与以往方法不同,SimpleFold既不使用对表示,也不依赖多序列比对或蛋白语言模型的注意力初始化,实现了架构上的简化 [10] 模型训练与扩展性 - 为研究框架的扩展能力,研究人员训练了参数规模从1亿到30亿不等的多个SimpleFold模型,包括100M、360M、700M、1.1B、1.6B和3B版本 [11] - 训练策略借鉴了AlphaFold2,在同一蛋白的每张GPU上复制多份,各自抽取不同时间步,再从多个蛋白累积梯度,实验表明此策略能带来更稳定的梯度和更优性能 [12][13] - 随着模型规模增大,研究人员对原子编码器、解码器和残基主干网络进行了全链路升级,模型做大不仅是增加参数 [11] - 研究证明SimpleFold具有良好的可扩展性,更大规模的模型在训练资源更充足的情况下表现更佳,为通用生成模型在生物领域大规模应用指明了路径 [35] 模型性能评估(基准测试) - 在CAMEO22和CASP14这两个广泛使用的蛋白质结构预测基准上评估了SimpleFold的性能 [14] - 在CAMEO22基准上,SimpleFold的表现与目前最先进的模型相当,如ESMFold、RoseTTAFold2和AlphaFold2 [19] - 尽管架构简洁,但SimpleFold在多数指标上能达到RoseTTAFold2和AlphaFold2性能的95%以上 [20] - 在更具挑战性的CASP14基准上,SimpleFold甚至超越了ESMFold [21] - 模型跨基准的性能下降更小,说明其不依赖多序列比对也能稳健泛化,能够应对更复杂的结构预测任务 [22] - 即便是最小的SimpleFold-100M模型,在CAMEO22上也能实现ESMFold性能的90%以上,验证了基于通用结构模块构建蛋白质折叠模型的可行性 [23] 结构集合生成能力 - 采用生成式目标使SimpleFold能够直接建模结构分布,而非仅输出单一结构,因此可以同一条氨基酸序列生成多个不同构象组成的结构集合 [28] - 在ATLAS数据集上的测试表明,SimpleFold在多个评估指标上持续优于同样依赖ESM表征的ESMFlow-MD模型 [31] - 在暴露残基与互信息矩阵等关键可观测性指标上,SimpleFold也胜过AlphaFlow-MD,这有助于挖掘药物发现中常见的“隐性口袋” [31] - 在Apo/holo数据集上,SimpleFold取得了当前最优表现,显著超越了AlphaFlow等强大的多序列比对方法 [32] - 在Fold-switch数据集上,SimpleFold的表现与ESMFlow相当甚至更优 [33] - 模型的结构集合生成性能随着模型规模的增加而提升,展示了该框架在此方面的巨大潜力 [33]
开创多元协同治理格局 促进人工智能安全有序发展
科技日报· 2025-08-29 14:37
人工智能战略定位 - AI从辅助工具跃升为驱动社会变革的核心引擎 国务院出台《人工智能+》行动意见推动技术与应用双向赋能 [1] - AI成为高质量发展的关键增量 核心价值体现在赋能 减负 提质 增效四个维度 [3] - 意见紧扣全球科技趋势 以战略性布局引领方向 科学性设计推动融合 指导性举措明确路径 及时性部署抢抓机遇 [4] 产业赋能应用 - AI拓展科学研究认知边界 如AlphaFold破解蛋白质折叠难题 支持科研范式转型加速创新成果转化 [3] - 智能制造领域车企通过AI维护系统将设备故障率降低20% 教育领域AI定制学习路径 医疗领域成为智能助手 [3] - AI通过自动化技术将人们从危险繁重工作中解放 创造智能化就业机会和工作方式 关注民生提振消费 [3] - 社会治理领域提升应急效率 生态治理领域实现实时监测模拟推演 推进治理能力精准提升 [4] 技术风险挑战 - 大模型存在黑箱特征 不可解释性导致决策逻辑难理解 鲁棒性不足易受对抗攻击 幻觉问题生成虚假内容 [6] - AI价值观是数据投射 训练数据偏见被模型放大 可能无意识传播与主流价值观相悖内容 影响社会和谐 [6] - 深度伪造技术生成以假乱真音视频 海量数据依赖导致隐私泄露风险 AI驱动网络攻击威胁个人安全与社会稳定 [6] 安全治理体系 - 构建四位一体协同治理体系 完善法律法规体系 构建多元公共安全体系 建设网络空间治理体系 建立智能应急体系 [8] - 技术安全方面开发可解释AI使决策透明化 通过对抗训练提升模型抗攻击能力 研发内容真实性检测算法 [9] - 伦理安全方面通过强化学习将中华传统文化与社会主义核心价值观嵌入模型 优化内容审核与行为约束技术 [9] - 应用安全方面制定数据保密网络安全供应链安全管理办法 引导安全行业数智转型 提升公众风险意识 [9] - 国家安全层面加快建设全维度安全测评体系 参与全球治理规则和技术标准制定 推动智能向上向善理念 [9]