Genome Prediction
搜索文档
谷歌Alpha家族再登Nature封面,刷新基因组预测SOTA,精准定位远端致病突变
36氪· 2026-01-29 16:24
核心观点 - 谷歌DeepMind推出全新AI模型AlphaGenome,将AI预测能力拓展至人类基因组图谱,实现了对多种基因调控过程的统一、高精度预测,并在多项基准测试中刷新纪录,成为该领域新的SOTA模型 [1][8][11] 技术能力与性能 - **统一预测框架**:模型构建了统一预测框架,单次推理即可同时对**11种**不同的基因调控过程进行综合预测,涵盖基因表达、转录因子结合、组蛋白修饰及染色质三维折叠接触图谱 [3][9] - **卓越预测精度**:在基因组轨迹预测的**24项**评估中取得**22项**SOTA;在变异效应预测任务中,与现有模型进行了**26轮**对决,并在**25轮**中胜出 [12] - **具体性能指标**:在剪接位点分类任务中auPRC达**0.79**,优于DeltaSplice;在RNA-seq基因表达预测中Pearson r达**0.57**,优于Borzoi;在DNA可及性预测中多项指标优于ChromBPNet和Borzoi等模型 [13] - **长程与复杂过程解析**:能够解析距离靶基因超过**10kb**的远端增强子作用,成功为**49%**的GWAS相关位点指明调控方向;能完整模拟复杂的RNA剪接过程,同时计算剪接位点、使用率及具体的剪接连接点 [17][13] 应用案例与验证 - **疾病机制解析**:精准还原了白血病相关基因**TAL1**的致病突变,准确预测出**8000个碱基**之遥的区域发生的突变如何通过创建MYB转录因子结合位点、形成新增强子,最终远程激活TAL1基因导致T细胞癌变 [6][19][21] - **剪接变异预测**:精准捕捉到动脉组织中**DLG1**基因因**4碱基**微小缺失(TACTC>T)导致关键外显子被错误跳过的连串反应,计算出受影响外显子使用率大幅下降 [14][15] - **泛化与预测能力**:模型不仅能处理已知数据,更能对从未见过的DNA片段及其未知突变做出准确预测,证明了其强大的泛化能力 [7] 模型架构与技术细节 - **混合网络架构**:采用基于U-Net的混合主干网络,融合**CNN**与**Transformer**,利用卷积提取局部特征,利用注意力机制捕捉长距离碱基依赖关系,生成用于预测一维功能轨迹和三维接触图谱的嵌入表示 [23] - **超大输入窗口**:输入窗口扩展至**100万个碱基对(1Mb)**,足以覆盖绝大多数远程增强子与启动子间的相互作用区域 [28] - **大规模训练数据**:利用公开资源,针对人类基因组的**5930种**功能轨迹和小鼠基因组的**1128种**功能轨迹进行了端到端的监督学习,数据覆盖不同组织、细胞类型及细胞系 [28] - **两阶段训练策略**:第一阶段采用严格的**4折交叉验证**进行预训练;第二阶段采用蒸馏策略,用全折叠教师模型集合指导单个学生模型学习,并引入随机移位、反向互补、随机突变等严苛数据增强以提升鲁棒性 [28][30] - **高效工程实现**:利用序列并行技术,将**1Mb**长序列切分分配至**8个**互联的TPU v3设备同步计算,最终蒸馏模型在单个GPU上推理耗时不到**1秒** [30] 当前状态 - 谷歌DeepMind已面向**非商业研究**开放AlphaGenome API [8]
谷歌Alpha家族再登Nature封面!刷新基因组预测SOTA,精准定位远端致病突变
量子位· 2026-01-29 10:30
AlphaGenome的核心突破与意义 - 谷歌DeepMind推出全新AI模型AlphaGenome,将AI预测能力拓展至人类基因组图谱,并登上《Nature》封面 [1] - 该模型能够同时对11种不同的基因调控过程进行综合预测,准确捕捉基因深处的复杂互动 [3] - 其预测性能在各项测试中均持平或超越现有程序,成为当前基因组预测领域的SOTA(最先进)模型 [9] 模型的技术能力与性能 - AlphaGenome构建了统一的预测框架,单次推理即可覆盖基因组的广泛特征,直接对11种不同的生物学过程进行综合预测,包括基因表达、转录因子结合、组蛋白修饰及染色质三维折叠接触图谱 [11] - 在针对基因组轨迹预测的24项评估中,取得了22项SOTA(最先进水平) [13] - 在变异效应预测任务中,与Borzoi、Enformer等现有模型进行了26轮对决,并在25轮中胜出 [14] - 能够深入分析复杂的基因剪接机制,识别细胞如何从单个基因生成多种蛋白质,以及这一过程何时会出错导致疾病 [4] - 在极其复杂的RNA剪接过程中,实现了对剪接动力学的完整模拟,能够同时计算剪接位点、位点使用率以及具体的剪接连接点 [15] - 利用其长程预测能力,解析了距离靶基因超过10kb的远端增强子,解决了全基因组关联分析(GWAS)中的核心难题 [19] - 在测试中,成功为49%的GWAS相关位点指明了明确的调控方向,解析率大幅超越传统方法 [21] 模型的应用案例与实证 - 对白血病相关基因TAL1的致病突变进行了精准还原,准确预测出8000个碱基之遥的区域发生的突变引起病变 [6] - 在TAL1基因研究中,成功锁定了一个距离基因转录起始位点8000个碱基之遥的插入突变,并给出了完整的致病逻辑链条,预测该突变创造了一个MYB转录因子的结合位点,并最终形成一个新增强子,远程强制激活了本应关闭的TAL1基因,导致T细胞癌变 [23][24][26][27] - 以动脉组织中的DLG1基因案例为例,精准捕捉到DNA序列中一个微小的4碱基缺失(TACTC>T),导致关键外显子被错误跳过,并计算出受影响外显子的使用率大幅下降 [16][17] - 模型不仅能处理已知数据,更能对从未见过的DNA片段及其未知突变做出准确预测 [8] 模型的技术架构与设计 - 采用基于U-Net的混合主干网络,融合了卷积神经网络(CNN)与Transformer的技术优势 [30] - 利用卷积层提取局部的DNA序列特征,同时引入Transformer模块利用注意力机制捕捉跨越长距离的碱基依赖关系 [31] - 架构最终生成两种嵌入表示:用于预测线性基因组功能轨迹的一维嵌入,以及专门用于重构染色体三维折叠结构(接触图谱)的二维嵌入 [31] - 在U-Net结构中,编码器通过卷积模块提取高维特征,中间层的Transformer塔处理长程信息,解码器通过跳跃连接恢复至单碱基分辨率 [33] - 将输入窗口扩展到了100万个碱基对(1Mb),足以覆盖绝大多数远程增强子与启动子之间的相互作用区域 [36] 模型的训练数据与策略 - 支撑模型训练的是一个覆盖人类与小鼠双物种的工业级规模数据集 [37] - 利用了来自ENCODE、GTEx及4D Nucleome Project等公开资源,针对人类基因组的5930种功能轨迹和小鼠基因组的1128种功能轨迹进行了端到端的监督学习 [37] - 数据覆盖了不同的组织、细胞类型及细胞系,确保模型能够学习到基因调控在不同生理环境下的通用规则 [38] - 训练策略采用两阶段流程:第一阶段为采用4折交叉验证的预训练;第二阶段采用蒸馏策略,用全折叠教师模型集合指导单个学生模型学习 [39][40][41] - 引入了严苛的数据增强策略,包括随机移位、反向互补和随机突变,迫使学生模型掌握DNA序列背后的深层语法规则,增强对未见变异的鲁棒性 [43] 模型的工程化与部署 - 利用序列并行技术,将1Mb的长输入序列切分为多个片段(如131 kb),分配至8个互联的TPU v3设备上同步计算 [43] - 软硬件协同架构使得模型在保持单碱基分辨率精度的同时完成大规模训练,最终得到的蒸馏模型在单个GPU上仅需不到1秒即可完成推理 [43] - 目前,Google DeepMind已面向非商业研究开放AlphaGenome API [10]