谷歌Alpha家族再登Nature封面,刷新基因组预测SOTA,精准定位远端致病突变
谷歌谷歌(US:GOOGL) 36氪·2026-01-29 16:24

核心观点 - 谷歌DeepMind推出全新AI模型AlphaGenome,将AI预测能力拓展至人类基因组图谱,实现了对多种基因调控过程的统一、高精度预测,并在多项基准测试中刷新纪录,成为该领域新的SOTA模型 [1][8][11] 技术能力与性能 - 统一预测框架:模型构建了统一预测框架,单次推理即可同时对11种不同的基因调控过程进行综合预测,涵盖基因表达、转录因子结合、组蛋白修饰及染色质三维折叠接触图谱 [3][9] - 卓越预测精度:在基因组轨迹预测的24项评估中取得22项SOTA;在变异效应预测任务中,与现有模型进行了26轮对决,并在25轮中胜出 [12] - 具体性能指标:在剪接位点分类任务中auPRC达0.79,优于DeltaSplice;在RNA-seq基因表达预测中Pearson r达0.57,优于Borzoi;在DNA可及性预测中多项指标优于ChromBPNet和Borzoi等模型 [13] - 长程与复杂过程解析:能够解析距离靶基因超过10kb的远端增强子作用,成功为49%的GWAS相关位点指明调控方向;能完整模拟复杂的RNA剪接过程,同时计算剪接位点、使用率及具体的剪接连接点 [17][13] 应用案例与验证 - 疾病机制解析:精准还原了白血病相关基因TAL1的致病突变,准确预测出8000个碱基之遥的区域发生的突变如何通过创建MYB转录因子结合位点、形成新增强子,最终远程激活TAL1基因导致T细胞癌变 [6][19][21] - 剪接变异预测:精准捕捉到动脉组织中DLG1基因因4碱基微小缺失(TACTC>T)导致关键外显子被错误跳过的连串反应,计算出受影响外显子使用率大幅下降 [14][15] - 泛化与预测能力:模型不仅能处理已知数据,更能对从未见过的DNA片段及其未知突变做出准确预测,证明了其强大的泛化能力 [7] 模型架构与技术细节 - 混合网络架构:采用基于U-Net的混合主干网络,融合CNNTransformer,利用卷积提取局部特征,利用注意力机制捕捉长距离碱基依赖关系,生成用于预测一维功能轨迹和三维接触图谱的嵌入表示 [23] - 超大输入窗口:输入窗口扩展至100万个碱基对(1Mb),足以覆盖绝大多数远程增强子与启动子间的相互作用区域 [28] - 大规模训练数据:利用公开资源,针对人类基因组的5930种功能轨迹和小鼠基因组的1128种功能轨迹进行了端到端的监督学习,数据覆盖不同组织、细胞类型及细胞系 [28] - 两阶段训练策略:第一阶段采用严格的4折交叉验证进行预训练;第二阶段采用蒸馏策略,用全折叠教师模型集合指导单个学生模型学习,并引入随机移位、反向互补、随机突变等严苛数据增强以提升鲁棒性 [28][30] - 高效工程实现:利用序列并行技术,将1Mb长序列切分分配至8个互联的TPU v3设备同步计算,最终蒸馏模型在单个GPU上推理耗时不到1秒 [30] 当前状态 - 谷歌DeepMind已面向非商业研究开放AlphaGenome API [8]