谷歌Alpha家族再登Nature封面！刷新基因组预测SOTA，精准定位远端致病突变

AlphaGenome的核心突破与意义 - 谷歌DeepMind推出全新AI模型AlphaGenome，将AI预测能力拓展至人类基因组图谱，并登上《Nature》封面 [1] - 该模型能够同时对11种不同的基因调控过程进行综合预测，准确捕捉基因深处的复杂互动 [3] - 其预测性能在各项测试中均持平或超越现有程序，成为当前基因组预测领域的SOTA（最先进）模型 [9] 模型的技术能力与性能 - AlphaGenome构建了统一的预测框架，单次推理即可覆盖基因组的广泛特征，直接对11种不同的生物学过程进行综合预测，包括基因表达、转录因子结合、组蛋白修饰及染色质三维折叠接触图谱 [11] - 在针对基因组轨迹预测的24项评估中，取得了22项SOTA（最先进水平） [13] - 在变异效应预测任务中，与Borzoi、Enformer等现有模型进行了26轮对决，并在25轮中胜出 [14] - 能够深入分析复杂的基因剪接机制，识别细胞如何从单个基因生成多种蛋白质，以及这一过程何时会出错导致疾病 [4] - 在极其复杂的RNA剪接过程中，实现了对剪接动力学的完整模拟，能够同时计算剪接位点、位点使用率以及具体的剪接连接点 [15] - 利用其长程预测能力，解析了距离靶基因超过10kb的远端增强子，解决了全基因组关联分析（GWAS）中的核心难题 [19] - 在测试中，成功为49%的GWAS相关位点指明了明确的调控方向，解析率大幅超越传统方法 [21] 模型的应用案例与实证 - 对白血病相关基因TAL1的致病突变进行了精准还原，准确预测出8000个碱基之遥的区域发生的突变引起病变 [6] - 在TAL1基因研究中，成功锁定了一个距离基因转录起始位点8000个碱基之遥的插入突变，并给出了完整的致病逻辑链条，预测该突变创造了一个MYB转录因子的结合位点，并最终形成一个新增强子，远程强制激活了本应关闭的TAL1基因，导致T细胞癌变 [23][24][26][27] - 以动脉组织中的DLG1基因案例为例，精准捕捉到DNA序列中一个微小的4碱基缺失（TACTC>T），导致关键外显子被错误跳过，并计算出受影响外显子的使用率大幅下降 [16][17] - 模型不仅能处理已知数据，更能对从未见过的DNA片段及其未知突变做出准确预测 [8] 模型的技术架构与设计 - 采用基于U-Net的混合主干网络，融合了卷积神经网络（CNN）与Transformer的技术优势 [30] - 利用卷积层提取局部的DNA序列特征，同时引入Transformer模块利用注意力机制捕捉跨越长距离的碱基依赖关系 [31] - 架构最终生成两种嵌入表示：用于预测线性基因组功能轨迹的一维嵌入，以及专门用于重构染色体三维折叠结构（接触图谱）的二维嵌入 [31] - 在U-Net结构中，编码器通过卷积模块提取高维特征，中间层的Transformer塔处理长程信息，解码器通过跳跃连接恢复至单碱基分辨率 [33] - 将输入窗口扩展到了100万个碱基对（1Mb），足以覆盖绝大多数远程增强子与启动子之间的相互作用区域 [36] 模型的训练数据与策略 - 支撑模型训练的是一个覆盖人类与小鼠双物种的工业级规模数据集 [37] - 利用了来自ENCODE、GTEx及4D Nucleome Project等公开资源，针对人类基因组的5930种功能轨迹和小鼠基因组的1128种功能轨迹进行了端到端的监督学习 [37] - 数据覆盖了不同的组织、细胞类型及细胞系，确保模型能够学习到基因调控在不同生理环境下的通用规则 [38] - 训练策略采用两阶段流程：第一阶段为采用4折交叉验证的预训练；第二阶段采用蒸馏策略，用全折叠教师模型集合指导单个学生模型学习 [39][40][41] - 引入了严苛的数据增强策略，包括随机移位、反向互补和随机突变，迫使学生模型掌握DNA序列背后的深层语法规则，增强对未见变异的鲁棒性 [43] 模型的工程化与部署 - 利用序列并行技术，将1Mb的长输入序列切分为多个片段（如131 kb），分配至8个互联的TPU v3设备上同步计算 [43] - 软硬件协同架构使得模型在保持单碱基分辨率精度的同时完成大规模训练，最终得到的蒸馏模型在单个GPU上仅需不到1秒即可完成推理 [43] - 目前，Google DeepMind已面向非商业研究开放AlphaGenome API [10]