Workflow
Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务,性能碾压现有模型
量子位·2025-06-26 22:11

核心观点 - 谷歌DeepMind推出突破性生物模型AlphaGenome,能够从1兆碱基的DNA序列中预测数千种功能基因组特征,并以单碱基分辨率评估变异效应[3][4] - AlphaGenome在基因表达、剪接、染色质可及性等任务上性能全面超越现有模型,为解析基因组调控代码提供强大工具[5][7] - 该模型是首个统一基因组任务的单一模型,将多模态预测、长序列背景和碱基对分辨率统一于单一框架[10][11] - AlphaGenome在临床上有潜力帮助理解疾病原因、发现治疗靶点,例如在T细胞急性淋巴细胞白血病研究中解析致癌变异[29] 模型架构与技术细节 - 模型架构受U-Net启发,处理1兆碱基DNA输入序列,生成一维和二维嵌入,分辨率分别为1bp/128bp和2048bp[13] - 内部结合卷积层和Transformer块,通过8个张量处理单元实现完整碱基对分辨率训练,最终输出11种模态,涵盖5930条人类或1128条小鼠基因组轨道[13] - 采用预训练和蒸馏两阶段训练,在NVIDIA H100 GPU上推理时间可达1秒以内[15][17] 性能表现 - 在24项基因组轨道评估中,AlphaGenome在22项保持领先,例如在细胞类型特异性LFC预测上相对改进+17.4%[16][19] - 在26个变异效应预测基准中,24项达到或超越现有最强模型,例如表达QTL方向预测提升25.5%,可及性QTL提升8%[19][21] - 在剪接模态方面首次实现全方位预测,在7项基准测试中的6项实现最先进水平,auPRC达0.54[25][27][28] 应用与未来发展 - 可帮助研究人员更精准理解疾病潜在原因,例如解析T-ALL中TAL1基因附近的致癌变异[29] - 未来可通过扩展数据提升预测精度并涵盖更广泛物种,科学家只需微调即可快速生成和测试假设[29] - 目前提供预览版并计划正式发布,代码已开源[30]