文章核心观点 - AI智能体在生物学领域的发展远慢于软件工程领域,其核心瓶颈并非大模型的推理能力不足,而是现有生物数据基础设施落后、异构且不适合AI Agent操作[1][2][3] - 若要让AI Agent真正参与并加速生物学研究,必须对生物数据基础设施进行改造和建设,使其更适合Agent使用,提供稳定、可验证、可重复的执行路径[3][14] 现有生物数据基础设施的挑战 - 生物数据基础设施对Agent而言如同在汽车出现前建造的老城,道路狭窄曲折,难以让现代车辆(Agent)顺畅通行,具体表现为各种特有的文件格式、分散的数据库和一次性的检索脚本[9] - 软件基础设施天然适合Agent,具备结构化的数字工作流、可靠接口(如版本控制、清晰的API和包管理器),而计算生物学的基础设施则脆弱、异构且高度依赖具体流程[9][11] - 生物学研究缺乏简单、可验证且有意义的奖励信号,且缺少一种广泛可用的确定性执行层来支持对生物数据的查询,即使Agent理解了任务意图,也往往缺少可靠路径访问所需信息的数据库[11] - 在生物学工作流中,微小的错误(如从错误的基因组版本提取坐标、混用不同数据库记录)可能导致严重的生物学解释失效,细节至关重要[12][13] 跨领域共通的Agent适配问题 - Agent需求与人类构建工具之间的错配并非生物学独有,在完全围绕人类使用习惯设计的环境中都会出现类似摩擦,例如Karpathy在Web开发中遇到的“浏览器点击式工作流”困境[16][17] - 计算生物学领域长期面临类似痛点:试图让智能系统在充满异构信息、隐含约定和人工操作流程的、为人类点击浏览器而设计的环境中工作[17] - 病毒学是体现此问题的典型案例,许多研究工作流的第一步是从NCBI Virus等数据库检索序列,但检索流程背后隐藏着复杂的专家知识,通常需要研究者在网页界面手动复现一长串筛选条件,这构成了“点击税”[19][20][23] Agent在生物数据检索中的表现与风险 - 在针对病毒序列检索的基准测试VirBench(包含120个任务)中,前沿AI模型的表现差异很大,平均准确率在16.9%到91.3%之间波动,且未能稳定达到接近100%的可靠性[27] - 同一模型在相同查询任务上重复运行,结果高度不稳定,例如Claude Sonnet 4在查询Zaire ebolavirus序列的任务中,三次运行分别返回了106条、15条和5条序列,而标准答案是266条[28] - 这种不稳定性会直接导致下游生物学分析结论错误,例如在构建系统发育树推断疫情起源时,使用不完整数据集可能将最近共同祖先时间错误地推算至1922年,而非正确的2014年1月[28] - 在涉及抗体疗法靶点突变分析的任务中,结果的不稳定可能导致对药物有效性的判断出现分歧[31][32] - 关键风险在于:Agent可能理解了任务并给出看似合理的答案,但由于缺少机器可操作、可验证、可重复的路径,答案可能是错误的,而数据检索往往是后续长时间生物工作流的第一步,小错误可能放大并改变最终生物学结论[34] 解决方案:构建确定性工具层 - 研究团队与NCBI合作开发了gget virus工具,旨在为病毒数据检索提供一个稳定、可被Agent和人类直接调用的确定性工具层[36] - gget virus通过协调REST、Datasets、E-utilities等多个API,复现NCBI Virus网页界面的复杂筛选逻辑,处理批量检索、分页和数据拼接,并输出标准化、可审计的结果[37] - 引入gget virus后,所有测试AI Agent的检索准确率均提升至90%以上,其中GPT-5.5达到99.7%,多次运行间的波动基本消失,不同模型间的性能差距显著缩小[38] - 这表明一个确定性的检索层降低了模型选择的关键性,使得更便宜的模型结合合适工具也能获得可靠能力,让可靠的数据集构建不依赖于最新、最贵的模型[40] 未来方向与根本启示 - 科学AI Agent需要一个“无聊但可靠”的底座:模型在生成假设、设计实验时应有创造力,但底层的基因标识符、数据模式、检索逻辑、坐标系统、元数据约定和数据访问路径必须足够稳定、确定和可复现[41] - 未来更大的方向是为生物数据构建一类“上下文引擎”,即可靠、可被Agent访问的数据基础设施,类似探索已出现在ToolUniverse、Edison Scientific的Robin等系统中[42] - 即便未来AI Agent能力足够强大,能够自行处理混乱的数据门户,出于成本、速度、可审计性和可靠性考虑,为日常科研工作提供确定性的工具框架仍有必要[42] - 根本启示在于:当设计和建设生物数据库系统时,必须将AI Agent视为重要用户纳入考虑,并面向规模化使用进行设计[43]
Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施
机器之心·2026-06-09 12:09