生成式AI模型
搜索文档
生物学的编程语言来了——Proto,让科学家像写代码一样设计生命
生物世界· 2026-06-24 12:21
文章核心观点 - 斯坦福大学/Arc研究所的研究团队推出了一种名为Proto的高级编程语言,旨在整合多种AI工具,实现复杂且多模态的生物学设计,代表了生物设计领域的一次范式转变[3][5][30] 传统生物工程设计的局限性 - 传统方法依赖从天然生物组件中挑选组合,通过“构建-测试-学习”循环迭代,过程耗时、昂贵且依赖经验和运气[9] - 尽管生成式AI模型出现,但现有方法碎片化,不同模型(如蛋白质设计、DNA设计、预测分析)难以组合以解决复杂问题[10] Proto编程语言的核心构成 - 其核心思想是将生物设计任务抽象为四个基本“原语”:序列(代表DNA、RNA或蛋白质字符串)、约束(评分函数,判断序列优劣)、生成器(提出候选序列,如大型语言模型Evo2、扩散模型)和优化器(迭代改进序列以满足约束)[13] - 这四种组件可以像乐高积木一样自由组合,构建从简单到复杂的设计程序[14] Proto的理论框架与优势 - 背后有一个基于能量的模型的数学框架:目标分布正比于生成器先验乘以指数形式的负约束得分,旨在平衡生物序列的“合理性”与功能的“优越性”[16][18] - 支持多目标优化,多个约束可以简单相加形成“专家乘积”,允许同时优化多个目标(如蛋白质结构稳定、与特定DNA结合、在特定细胞中表达)[19] Proto的实验验证与性能 - 案例一:设计细胞特异性剪接的内含子。仅测试65个候选序列,32%表现出显著的目标方向差异剪接,而此前类似研究成功率不到7%且测试了超过10万条序列[22]。其中一个设计在SH-SY5Y神经细胞中剪接率为36%,在K562白血病细胞中为71%,实现了精准的细胞类型特异性调控[23] - 案例二:协同设计启动子-阻遏蛋白对。设计了全新的σ70启动子,86个候选中有71个的活性超过了已知的强启动子PLtetO1[24]。针对这些启动子设计对应的阻遏蛋白,成功率达到46%[24]。最强的设计之一ProtoRepressor 44_9对其目标启动子展现出2倍的抑制效果,且对非目标启动子几乎没有影响[24] - 案例三:AI智能体驱动的复杂系统设计。集成了通用AI智能体,研究人员可用自然语言描述需求,AI智能体自动编写Proto程序[25]。完成了三项挑战性任务:设计了249个人类蛋白质复合体(涵盖797个基因,中位RMSD仅1.9埃)、重新设计了β2-肾上腺素信号通路(涉及8种蛋白质、多种小分子配体和DNA元件)、设计了靶向非小细胞肺癌的多层调控系统[28] 工程挑战与开源状态 - 开发面临生物学AI模型生态“各自为政”的挑战,团队建立了标准化的基础设施,目前已支持超过120种工具[27] - 研究团队已将Proto完全开源,包括Python API、图形用户界面和云端执行环境,以促进生成式生物学编程的广泛使用[6][29] 行业意义与未来展望 - Proto有望成为生物系统设计的“通用语言”,正如高级编程语言Verilog和C语言推动大规模集成电路和计算机程序的发展[30] - 随着生物学序列生成式模型、序列到功能预测模型以及基于大语言模型推理的AI智能体的不断改进,Proto所能设计的生物学功能在范围、规模和可靠性方面都将得到提升[31] - 未来生物学设计将不再受限于天然可用元件,而更多受限于人类的创造力[31]