AI4S又一瓶颈被攻克：两个AI「吵架」，让科研代码部署成功率突破95%

科学软件部署的现状与挑战 - 过去几十年科学计算领域积累了数量空前的开源软件工具，覆盖生物信息学、化学模拟、材料计算、物理仿真与工程设计等几乎每一个学科方向，形成了自己的工具生态 [1][2] - 在GitHub等平台上存在成千上万个代码仓库，但绝大多数科学软件仅停留在“被发布过”的状态，而非“可以直接运行” [3] - 在真实科研实践中，团队往往需要花费数天甚至数周时间解决编译失败、依赖冲突、系统不兼容等问题，才能在本地点“勉强跑通”一个工具，这种环境高度依赖个人经验，是临时、不可移植且难以被他人复现的 [4] - 这种模式不仅在结构上限制了科学软件的可复现性、大规模评估以及系统性集成，还构成了长期制约科学软件可用性的“部署瓶颈” [5][6] - 随着AI for Science（AI4S）兴起，工具是否“真的能跑”从工程细节变为第一性问题，因为AI系统需要与真实的科学工具发生紧密交互 [7][8] - 在Agentic Science场景中，如果工具依赖隐含环境且执行高度脆弱，智能体的规划将无法真正落地，执行失败也无法被结构化分析，工具是否部署就绪已成为制约AI4S与Agentic Science规模化发展的结构性瓶颈 [9][10] Deploy-Master的提出与设计理念 - 基于对科学软件部署瓶颈的观察，研究团队判断问题不在于工具不够多，而在于缺乏一个能够将工具系统性转化为可执行事实的共享基础设施 [10] - Deploy-Master被设计为一个以执行为中心的一站式自动化工作流，它围绕一条连续链路展开：工具能否被发现、是否被正确理解、能否构建环境，以及是否真的可以被执行 [11] - 该方案旨在为社区Agent与各类Master Agent提供一个长期缺失的基础前提，即统一构建、验证并注册为可执行能力，使得Agent拥有稳定的action space，规划、执行与学习之间的闭环得以成立 [21][22] - 其方法论的意义不局限于科学计算，科学工具被视为自动化部署中最困难的一类，若在此“最难场景”中能通过以执行为中心的设计在万级规模下稳定产生可运行工具，则结论表明问题不在工具类型，而在于是否建立了以执行为核心的基础设施 [22] 大规模工具发现与筛选流程 - 部署的第一个难题在于发现，如果候选工具集合存在系统性偏差，后续所有自动化都会放大偏差 [13] - 团队从91个科学与工程领域出发，构建了一个覆盖AI4S实际应用场景的学科空间，并使用语言模型扩展搜索关键词，在GitHub与公共网络中进行大规模检索 [13] - 初始召回得到的仓库作为“锚点”，通过依赖关系、引用关系、共享贡献者和文档链接等信号进行迭代扩展，以避免仅依赖关键词搜索带来的盲区 [13] - 随后通过结构启发式规则剔除明显不可执行的仓库，并由Agent进行语义判断，确认其是否构成一个可执行科学工具 [13] - 通过这一多阶段漏斗流程，团队将最初约50万个仓库，收敛为52,550个进入自动部署流程的科学工具候选，第一次以结构化方式刻画了真实科学工具世界的规模与边界 [13] 自动化构建与验证机制 - 在构建阶段，大量科学软件仓库的构建信息是零散的、不完整的，甚至相互矛盾的，README文件可能早已过期，已有Dockerfile也未必反映当前代码状态 [16] - Build Agent会系统性地遍历仓库中的构建线索，并在必要时进行补充信息检索，生成初始构建方案 [16] - 早期实验表明，仅依赖单一模型生成构建规格，成功率只有50%–60%，失败主要源于构建信息中大量隐含、未被显式表达的假设 [16] - Deploy-Master引入了双模型评审与辩论机制：一个模型提出构建规格，另一个模型独立审查并主动寻找潜在不一致、缺失依赖或环境假设，提出修正建议，两者通过多轮交互形成稳定、可执行的构建规格 [16] - 这一机制将整体构建成功率提升到了95%以上，每一个工具最终都会通过一个最小可执行命令进行验证，只有通过验证的工具才会被视为成功部署，并被结构化、注册和发布 [16] 部署结果与数据分析 - 从构建时间分布来看，大规模部署并非均匀过程，大多数工具可以在7分钟左右完成构建，但整体分布呈现明显长尾特征，部分涉及复杂编译流程、深层依赖的工具构建时间显著更长 [18] - 在成功部署的50,112个工具中，覆盖了170多种编程语言，其中Python占据最大比例，其次是C/C++、Notebook形式的工具、R、Java等 [19] - 绝大部分语言部署成功率都稳定维持在较高水平，少数成功率相对较低的语言主要集中在依赖复杂编译链或系统级库的场景，如C/C++、Fortran以及部分R工具 [19] - 在2,438次失败的构建尝试中，失败原因高度集中在少数几类问题上，最主要的失败来源是构建流程错误，包括构建步骤与仓库当前状态不一致、关键依赖缺失、编译器或系统库不匹配等，这类失败远远多于资源不足、网络异常或权限问题 [19] - 通过统一的执行基础设施，团队得以系统性地观察科学软件在真实环境中的部署行为，将“科学软件难以部署”从一种经验判断，转化为可以被量化、被分析、被持续改进的工程对象 [20] 对Agentic Science的深远影响 - Deploy-Master的直接产出是一个由数万条执行验证工具构成的集合，它为社区Agent与各类Master Agent提供了一个长期缺失的基础前提 [21] - 只有当工具被统一构建、验证并注册为可执行能力，Agent才真正拥有稳定的action space，规划、执行与学习之间的闭环才得以成立，不同来源的社区Agent可以共享同一批经过执行验证的工具能力 [22] - 在Agentic Science时代，执行不是推理之后的附属步骤，而是所有能力得以成立的前提，当“工具能不能跑”成为一个被系统性验证的事实，科学智能体才真正开始拥有与现实世界交互的基础 [23] - Deploy-Master是迈向这一执行现实的一次尝试，尽管异构硬件、分布式计算、语义级I/O接口等仍然是未来需要面对的挑战 [22][23]