Evo-2登上Nature：AI模型实现对所有生命基因组的建模和设计，甚至能从头设计生命

文章核心观点 - 由Arc研究所、斯坦福大学、加州大学伯克利分校、加州大学旧金山分校及英伟达科学家团队开发的Evo-2模型正式发表，这是有史以来最大的生物学人工智能模型，能够对所有生命域进行理解、建模和设计遗传密码，标志着生命科学进入AI驱动的新时代 [2][3][31] 模型概述与发布信息 - Evo-2模型于2026年3月4日在《自然》杂志正式发表，其前身Evo模型于2024年11月15日在《科学》杂志作为封面论文发表 [2][6] - Evo-2是首个经过同行评议的、能够对所有生命域进行基因组建模和设计的AI模型，其训练数据涵盖了从病毒到人类的12.8万个基因组的9.3万亿个核苷酸 [3] - 该模型完全开源，在GitHub上共享了模型参数、训练代码、推理代码及OpenGenome 2数据集，并可通过英伟达BioNeMo平台免费访问和部署 [3] 模型的技术规格与架构 - Evo-2的训练数据扩展至所有生命域，包括细菌、古菌、噬菌体、植物、动物和人类等，总计9.3万亿个核苷酸，训练参数高达400亿（另有70亿参数版本） [12] - 训练过程使用了超过2000张英伟达H100 GPU，持续数月，规模接近顶尖通用大模型 [3][12] - 模型采用全新的StripedHyena 2架构，融合了输入依赖卷积和注意力机制，在处理长序列时比标准Transformer架构快3倍，且显存占用更低 [14] - 其最引人注目的技术突破之一是拥有100万个token的上下文窗口，能够一次性处理长达100万碱基对的DNA序列，从而捕捉基因组中的长距离相互作用 [14] 模型的核心能力：预测 - Evo-2具备强大的零样本预测能力，无需针对特定任务微调即可评估基因突变的功能影响 [16] - 在ClinVar数据库测试中，对于编码区单核苷酸突变，其预测性能AUROC达到0.841；对于非编码区突变，AUROC高达0.987，表现尤为突出 [20] - 对于插入、缺失、重复等复杂非单核苷酸突变类型，Evo-2的预测能力全面领先于其他模型 [20] - 在剪接突变预测方面，于内含子突变预测中与SpliceAI、CADD等专业监督模型竞争激烈，在外显子突变预测中超越了所有零样本模型 [17] - 该模型能够有效预测BRCA1和BRCA2等关键疾病基因的编码区和非编码区单核苷酸突变，展示了其作为零样本预测器在精准医疗中的应用潜力 [23] 模型的核心能力：生成与设计 - Evo-2能够生成全新的、完整的DNA序列，研究团队已成功生成了线粒体基因组、最小细菌基因组（生殖支原体）以及长达33万碱基对的酵母染色体 [18][21] - 其生成能力为合成生物学开辟新可能，通过推理时搜索技术，可引导模型设计具有特定功能的DNA序列，例如定制化设计启动子、增强子等调控元件 [24] - 团队展示了可控生成能力，例如设计了具有预设染色质可及性模式的序列，甚至在表观基因组上“写”出了“EVO2”、“ARC”这样的摩斯电码 [24] 模型在基础研究与行业生态中的意义 - Evo-2的内部表示捕捉了多种生物学特征，如外显子-内含子边界、转录因子结合位点、蛋白质结构元素等，为发现新的功能元件提供了工具 [26] - 模型的完全开源被视为生物计算领域的结构性事件，有望解决该领域工具生态割裂、数据许可复杂等问题，并可能成为一个标准生态平台 [28] - 这标志着生物学开始拥有自己的“通用底座”，研究人员可在此基础上开发各种应用，加速整个生命科学领域的创新 [29] 生物安全与未来展望 - 研究团队在生物安全方面采取了谨慎措施，在训练数据中排除了能够感染真核生物的病毒序列，以降低模型被滥用于设计致病性病毒的风险 [31] - 团队验证了数据排除导致模型对真核病毒基因组建模性能较差，表明该策略达到了预期效果 [31] - Evo系列模型为生物学建模与设计奠定了基础，未来通过整合基因组序列与其他模态数据，有望开发出能够模拟健康与疾病状态下复杂表型的模型 [31]