Claude Sonnet 4 - 财报，业绩电话会，研报，新闻

Claude Sonnet 4

搜索文档

机器之心· 2026-06-09 12:09

文章核心观点 - AI智能体在生物学领域的发展远慢于软件工程领域，其核心瓶颈并非大模型的推理能力不足，而是现有生物数据基础设施落后、异构且不适合AI Agent操作[1][2][3] - 若要让AI Agent真正参与并加速生物学研究，必须对生物数据基础设施进行改造和建设，使其更适合Agent使用，提供稳定、可验证、可重复的执行路径[3][14] 现有生物数据基础设施的挑战 - 生物数据基础设施对Agent而言如同在汽车出现前建造的老城，道路狭窄曲折，难以让现代车辆（Agent）顺畅通行，具体表现为各种特有的文件格式、分散的数据库和一次性的检索脚本[9] - 软件基础设施天然适合Agent，具备结构化的数字工作流、可靠接口（如版本控制、清晰的API和包管理器），而计算生物学的基础设施则脆弱、异构且高度依赖具体流程[9][11] - 生物学研究缺乏简单、可验证且有意义的奖励信号，且缺少一种广泛可用的确定性执行层来支持对生物数据的查询，即使Agent理解了任务意图，也往往缺少可靠路径访问所需信息的数据库[11] - 在生物学工作流中，微小的错误（如从错误的基因组版本提取坐标、混用不同数据库记录）可能导致严重的生物学解释失效，细节至关重要[12][13] 跨领域共通的Agent适配问题 - Agent需求与人类构建工具之间的错配并非生物学独有，在完全围绕人类使用习惯设计的环境中都会出现类似摩擦，例如Karpathy在Web开发中遇到的“浏览器点击式工作流”困境[16][17] - 计算生物学领域长期面临类似痛点：试图让智能系统在充满异构信息、隐含约定和人工操作流程的、为人类点击浏览器而设计的环境中工作[17] - 病毒学是体现此问题的典型案例，许多研究工作流的第一步是从NCBI Virus等数据库检索序列，但检索流程背后隐藏着复杂的专家知识，通常需要研究者在网页界面手动复现一长串筛选条件，这构成了“点击税”[19][20][23] Agent在生物数据检索中的表现与风险 - 在针对病毒序列检索的基准测试VirBench（包含120个任务）中，前沿AI模型的表现差异很大，平均准确率在16.9%到91.3%之间波动，且未能稳定达到接近100%的可靠性[27] - 同一模型在相同查询任务上重复运行，结果高度不稳定，例如Claude Sonnet 4在查询Zaire ebolavirus序列的任务中，三次运行分别返回了106条、15条和5条序列，而标准答案是266条[28] - 这种不稳定性会直接导致下游生物学分析结论错误，例如在构建系统发育树推断疫情起源时，使用不完整数据集可能将最近共同祖先时间错误地推算至1922年，而非正确的2014年1月[28] - 在涉及抗体疗法靶点突变分析的任务中，结果的不稳定可能导致对药物有效性的判断出现分歧[31][32] - 关键风险在于：Agent可能理解了任务并给出看似合理的答案，但由于缺少机器可操作、可验证、可重复的路径，答案可能是错误的，而数据检索往往是后续长时间生物工作流的第一步，小错误可能放大并改变最终生物学结论[34] 解决方案：构建确定性工具层 - 研究团队与NCBI合作开发了gget virus工具，旨在为病毒数据检索提供一个稳定、可被Agent和人类直接调用的确定性工具层[36] - gget virus通过协调REST、Datasets、E-utilities等多个API，复现NCBI Virus网页界面的复杂筛选逻辑，处理批量检索、分页和数据拼接，并输出标准化、可审计的结果[37] - 引入gget virus后，所有测试AI Agent的检索准确率均提升至90%以上，其中GPT-5.5达到99.7%，多次运行间的波动基本消失，不同模型间的性能差距显著缩小[38] - 这表明一个确定性的检索层降低了模型选择的关键性，使得更便宜的模型结合合适工具也能获得可靠能力，让可靠的数据集构建不依赖于最新、最贵的模型[40] 未来方向与根本启示 - 科学AI Agent需要一个“无聊但可靠”的底座：模型在生成假设、设计实验时应有创造力，但底层的基因标识符、数据模式、检索逻辑、坐标系统、元数据约定和数据访问路径必须足够稳定、确定和可复现[41] - 未来更大的方向是为生物数据构建一类“上下文引擎”，即可靠、可被Agent访问的数据基础设施，类似探索已出现在ToolUniverse、Edison Scientific的Robin等系统中[42] - 即便未来AI Agent能力足够强大，能够自行处理混乱的数据门户，出于成本、速度、可审计性和可靠性考虑，为日常科研工作提供确定性的工具框架仍有必要[42] - 根本启示在于：当设计和建设生物数据库系统时，必须将AI Agent视为重要用户纳入考虑，并面向规模化使用进行设计[43]

AI Agent

生物数据基础设施

Artificial Intelligence

Artificial Intelligence

gget virus

Claude Sonnet 4

Claude Opus 4.7