文章核心观点 - 由Arc研究所、斯坦福大学、加州大学伯克利分校、加州大学旧金山分校及英伟达科学家团队开发的Evo-2模型正式发表,这是有史以来最大的生物学人工智能模型,能够对所有生命域进行理解、建模和设计遗传密码,标志着生命科学进入AI驱动的新时代 [2][3][31] 模型概述与发布信息 - Evo-2模型于2026年3月4日在《自然》杂志正式发表,其前身Evo模型于2024年11月15日在《科学》杂志作为封面论文发表 [2][6] - Evo-2是首个经过同行评议的、能够对所有生命域进行基因组建模和设计的AI模型,其训练数据涵盖了从病毒到人类的12.8万个基因组的9.3万亿个核苷酸 [3] - 该模型完全开源,在GitHub上共享了模型参数、训练代码、推理代码及OpenGenome 2数据集,并可通过英伟达BioNeMo平台免费访问和部署 [3] 模型的技术规格与架构 - Evo-2的训练数据扩展至所有生命域,包括细菌、古菌、噬菌体、植物、动物和人类等,总计9.3万亿个核苷酸,训练参数高达400亿(另有70亿参数版本) [12] - 训练过程使用了超过2000张英伟达H100 GPU,持续数月,规模接近顶尖通用大模型 [3][12] - 模型采用全新的StripedHyena 2架构,融合了输入依赖卷积和注意力机制,在处理长序列时比标准Transformer架构快3倍,且显存占用更低 [14] - 其最引人注目的技术突破之一是拥有100万个token的上下文窗口,能够一次性处理长达100万碱基对的DNA序列,从而捕捉基因组中的长距离相互作用 [14] 模型的核心能力:预测 - Evo-2具备强大的零样本预测能力,无需针对特定任务微调即可评估基因突变的功能影响 [16] - 在ClinVar数据库测试中,对于编码区单核苷酸突变,其预测性能AUROC达到0.841;对于非编码区突变,AUROC高达0.987,表现尤为突出 [20] - 对于插入、缺失、重复等复杂非单核苷酸突变类型,Evo-2的预测能力全面领先于其他模型 [20] - 在剪接突变预测方面,于内含子突变预测中与SpliceAI、CADD等专业监督模型竞争激烈,在外显子突变预测中超越了所有零样本模型 [17] - 该模型能够有效预测BRCA1和BRCA2等关键疾病基因的编码区和非编码区单核苷酸突变,展示了其作为零样本预测器在精准医疗中的应用潜力 [23] 模型的核心能力:生成与设计 - Evo-2能够生成全新的、完整的DNA序列,研究团队已成功生成了线粒体基因组、最小细菌基因组(生殖支原体)以及长达33万碱基对的酵母染色体 [18][21] - 其生成能力为合成生物学开辟新可能,通过推理时搜索技术,可引导模型设计具有特定功能的DNA序列,例如定制化设计启动子、增强子等调控元件 [24] - 团队展示了可控生成能力,例如设计了具有预设染色质可及性模式的序列,甚至在表观基因组上“写”出了“EVO2”、“ARC”这样的摩斯电码 [24] 模型在基础研究与行业生态中的意义 - Evo-2的内部表示捕捉了多种生物学特征,如外显子-内含子边界、转录因子结合位点、蛋白质结构元素等,为发现新的功能元件提供了工具 [26] - 模型的完全开源被视为生物计算领域的结构性事件,有望解决该领域工具生态割裂、数据许可复杂等问题,并可能成为一个标准生态平台 [28] - 这标志着生物学开始拥有自己的“通用底座”,研究人员可在此基础上开发各种应用,加速整个生命科学领域的创新 [29] 生物安全与未来展望 - 研究团队在生物安全方面采取了谨慎措施,在训练数据中排除了能够感染真核生物的病毒序列,以降低模型被滥用于设计致病性病毒的风险 [31] - 团队验证了数据排除导致模型对真核病毒基因组建模性能较差,表明该策略达到了预期效果 [31] - Evo系列模型为生物学建模与设计奠定了基础,未来通过整合基因组序列与其他模态数据,有望开发出能够模拟健康与疾病状态下复杂表型的模型 [31]
Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计,甚至能从头设计生命
生物世界·2026-03-09 14:48