Agentic Science
搜索文档
AI4S又一瓶颈被攻克:两个AI「吵架」,让科研代码部署成功率突破95%
36氪· 2026-01-13 18:21
科学软件部署的现状与挑战 - 过去几十年科学计算领域积累了数量空前的开源软件工具,覆盖生物信息学、化学模拟、材料计算、物理仿真与工程设计等几乎每一个学科方向,形成了自己的工具生态 [1][2] - 在GitHub等平台上存在成千上万个代码仓库,但绝大多数科学软件仅停留在“被发布过”的状态,而非“可以直接运行” [3] - 在真实科研实践中,团队往往需要花费数天甚至数周时间解决编译失败、依赖冲突、系统不兼容等问题,才能在本地点“勉强跑通”一个工具,这种环境高度依赖个人经验,是临时、不可移植且难以被他人复现的 [4] - 这种模式不仅在结构上限制了科学软件的可复现性、大规模评估以及系统性集成,还构成了长期制约科学软件可用性的“部署瓶颈” [5][6] - 随着AI for Science(AI4S)兴起,工具是否“真的能跑”从工程细节变为第一性问题,因为AI系统需要与真实的科学工具发生紧密交互 [7][8] - 在Agentic Science场景中,如果工具依赖隐含环境且执行高度脆弱,智能体的规划将无法真正落地,执行失败也无法被结构化分析,工具是否部署就绪已成为制约AI4S与Agentic Science规模化发展的结构性瓶颈 [9][10] Deploy-Master的提出与设计理念 - 基于对科学软件部署瓶颈的观察,研究团队判断问题不在于工具不够多,而在于缺乏一个能够将工具系统性转化为可执行事实的共享基础设施 [10] - Deploy-Master被设计为一个以执行为中心的一站式自动化工作流,它围绕一条连续链路展开:工具能否被发现、是否被正确理解、能否构建环境,以及是否真的可以被执行 [11] - 该方案旨在为社区Agent与各类Master Agent提供一个长期缺失的基础前提,即统一构建、验证并注册为可执行能力,使得Agent拥有稳定的action space,规划、执行与学习之间的闭环得以成立 [21][22] - 其方法论的意义不局限于科学计算,科学工具被视为自动化部署中最困难的一类,若在此“最难场景”中能通过以执行为中心的设计在万级规模下稳定产生可运行工具,则结论表明问题不在工具类型,而在于是否建立了以执行为核心的基础设施 [22] 大规模工具发现与筛选流程 - 部署的第一个难题在于发现,如果候选工具集合存在系统性偏差,后续所有自动化都会放大偏差 [13] - 团队从91个科学与工程领域出发,构建了一个覆盖AI4S实际应用场景的学科空间,并使用语言模型扩展搜索关键词,在GitHub与公共网络中进行大规模检索 [13] - 初始召回得到的仓库作为“锚点”,通过依赖关系、引用关系、共享贡献者和文档链接等信号进行迭代扩展,以避免仅依赖关键词搜索带来的盲区 [13] - 随后通过结构启发式规则剔除明显不可执行的仓库,并由Agent进行语义判断,确认其是否构成一个可执行科学工具 [13] - 通过这一多阶段漏斗流程,团队将最初约50万个仓库,收敛为52,550个进入自动部署流程的科学工具候选,第一次以结构化方式刻画了真实科学工具世界的规模与边界 [13] 自动化构建与验证机制 - 在构建阶段,大量科学软件仓库的构建信息是零散的、不完整的,甚至相互矛盾的,README文件可能早已过期,已有Dockerfile也未必反映当前代码状态 [16] - Build Agent会系统性地遍历仓库中的构建线索,并在必要时进行补充信息检索,生成初始构建方案 [16] - 早期实验表明,仅依赖单一模型生成构建规格,成功率只有50%–60%,失败主要源于构建信息中大量隐含、未被显式表达的假设 [16] - Deploy-Master引入了双模型评审与辩论机制:一个模型提出构建规格,另一个模型独立审查并主动寻找潜在不一致、缺失依赖或环境假设,提出修正建议,两者通过多轮交互形成稳定、可执行的构建规格 [16] - 这一机制将整体构建成功率提升到了95%以上,每一个工具最终都会通过一个最小可执行命令进行验证,只有通过验证的工具才会被视为成功部署,并被结构化、注册和发布 [16] 部署结果与数据分析 - 从构建时间分布来看,大规模部署并非均匀过程,大多数工具可以在7分钟左右完成构建,但整体分布呈现明显长尾特征,部分涉及复杂编译流程、深层依赖的工具构建时间显著更长 [18] - 在成功部署的50,112个工具中,覆盖了170多种编程语言,其中Python占据最大比例,其次是C/C++、Notebook形式的工具、R、Java等 [19] - 绝大部分语言部署成功率都稳定维持在较高水平,少数成功率相对较低的语言主要集中在依赖复杂编译链或系统级库的场景,如C/C++、Fortran以及部分R工具 [19] - 在2,438次失败的构建尝试中,失败原因高度集中在少数几类问题上,最主要的失败来源是构建流程错误,包括构建步骤与仓库当前状态不一致、关键依赖缺失、编译器或系统库不匹配等,这类失败远远多于资源不足、网络异常或权限问题 [19] - 通过统一的执行基础设施,团队得以系统性地观察科学软件在真实环境中的部署行为,将“科学软件难以部署”从一种经验判断,转化为可以被量化、被分析、被持续改进的工程对象 [20] 对Agentic Science的深远影响 - Deploy-Master的直接产出是一个由数万条执行验证工具构成的集合,它为社区Agent与各类Master Agent提供了一个长期缺失的基础前提 [21] - 只有当工具被统一构建、验证并注册为可执行能力,Agent才真正拥有稳定的action space,规划、执行与学习之间的闭环才得以成立,不同来源的社区Agent可以共享同一批经过执行验证的工具能力 [22] - 在Agentic Science时代,执行不是推理之后的附属步骤,而是所有能力得以成立的前提,当“工具能不能跑”成为一个被系统性验证的事实,科学智能体才真正开始拥有与现实世界交互的基础 [23] - Deploy-Master是迈向这一执行现实的一次尝试,尽管异构硬件、分布式计算、语义级I/O接口等仍然是未来需要面对的挑战 [22][23]
AI4S又一瓶颈被攻克:两个AI「吵架」,让科研代码部署成功率突破95%
量子位· 2026-01-13 17:50
文章核心观点 - 当前科学软件领域存在严重的“部署瓶颈”,绝大多数开源工具停留在“被发布过”而非“可直接运行”的状态,这严重制约了科学研究的可复现性、大规模评估和系统性集成 [3][4][6] - 随着AI for Science (AI4S) 和 Agentic Science 的兴起,工具是否“真的能跑”从工程细节变为第一性问题,成为制约其规模化发展的结构性瓶颈 [8][9][11] - Deploy-Master 项目被提出,旨在通过构建一个以执行为中心的一站式自动化工作流,将科学软件系统性转化为可执行事实,从而为智能体提供稳定、可复现的执行地基 [11][12][36] 科学软件部署现状与挑战 - 科学计算领域积累了数量空前的开源软件工具,覆盖生物信息学、化学模拟、材料计算、物理仿真与工程设计等众多学科方向 [1][2] - 绝大多数科学软件难以直接运行,研究团队常需花费数天甚至数周解决编译失败、依赖冲突、系统不兼容等问题,导致运行环境临时、不可移植且难以复现 [3][4] - 这种模式不仅效率低下,更在结构上限制了科学软件的可复现性、大规模评估以及系统性集成 [5][6] - 即便容器化、云计算和HPC平台降低了算力门槛,“部署瓶颈”依然长期存在并制约着科学软件的可用性 [7] AI4S与Agentic Science对部署的新要求 - 在AI for Science新范式中,AI系统需要与真实科学工具紧密交互,调用求解器、执行模拟程序等,因此工具是否“真的能跑”成为第一性问题 [8][9] - 在Agentic Science场景中,若工具依赖隐含环境、执行脆弱,将导致智能体规划无法落地,执行失败无法被结构化分析,阻碍可学习执行轨迹的形成 [10] - 工具是否部署就绪,已成为制约AI4S与Agentic Science规模化发展的结构性瓶颈 [11] Deploy-Master解决方案概述 - Deploy-Master被设计为一个以执行为中心的一站式自动化工作流,围绕工具发现、理解、环境构建和最终执行这条连续链路展开 [12] - 其直接产出是一个由数万条经过执行验证的工具构成的集合,为社区Agent与各类Master Agent提供了长期缺失的稳定执行前提 [35] - 该方法论的意义不局限于科学计算,科学工具被视为自动化部署中最困难的一类,若在此场景能成功,结论表明问题核心在于是否建立了以执行为核心的基础设施 [36] 工具发现与筛选 (Search Agent) - 团队从91个科学与工程领域出发,构建覆盖AI4S应用场景的学科空间,并使用语言模型扩展关键词,在GitHub与公共网络进行大规模检索 [14] - 通过依赖关系、引用关系等信号对初始召回仓库进行迭代扩展,避免仅依赖关键词搜索的盲区 [14] - 通过结构启发式规则和Agent语义判断进行筛选,将最初约50万个仓库收敛为52,550个进入自动部署流程的科学工具候选 [15] 自动化构建与验证 (Build Agent) - 面对构建信息零散、不完整甚至矛盾的情况,Build Agent系统遍历仓库构建线索并补充检索,生成初始构建方案 [18][19][20] - 早期实验表明,仅依赖单一模型生成构建规格的成功率只有50%–60% [21] - 引入双模型评审与辩论机制,通过多轮交互修正方案,将整体构建成功率提升到了95%以上 [21][22] - 每个工具最终通过一个最小可执行命令进行验证,只有通过验证的才会被视为成功部署并被注册发布 [23] 部署规模与特征分析 - 从构建时间分布看,大规模部署过程不均匀,大多数工具可在7分钟左右完成构建,但整体呈明显长尾特征 [25] - 在成功部署的50,112个工具中,覆盖了170多种编程语言,Python占比最大,其次是C/C++、Notebook、R、Java等 [27][28] - 绝大部分语言部署成功率维持在较高水平,少数较低的语言(如C/C++、Fortran)主要因依赖复杂编译链或系统级库,反映了环境耦合强度的影响 [28][29][30] - 在2,438次失败的构建尝试中,失败原因高度集中,最主要的来源是构建流程错误(如步骤不一致、关键依赖缺失、编译器不匹配),远多于资源不足或网络异常等问题 [31][32][33] 项目意义与未来展望 - Deploy-Master建立的可观测性,让“科学软件难以部署”从经验判断转化为可量化、可分析、可持续改进的工程对象 [34] - 只有当工具被统一构建、验证并注册为可执行能力,Agent才真正拥有稳定的行动空间,规划、执行与学习之间的闭环才得以成立 [36] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提 [37] - 项目未来仍需面对异构硬件、分布式计算、语义级I/O接口等挑战 [36]
这脑洞神了,两AI“互喷”,竟治好祖传科研软件95%老毛病?
36氪· 2026-01-09 20:22
行业背景与核心问题 - 科学计算领域在过去几十年积累了数量空前的开源软件工具,覆盖生物信息学、化学模拟、材料计算、物理仿真与工程设计等多个学科方向,在GitHub等平台上有成千上万个代码仓库 [2] - 但绝大多数科学软件停留在“被发布过”的状态,而非“可以直接运行”,在真实科研中部署工具常需花费数天甚至数周解决编译失败、依赖冲突、系统不兼容等问题 [2] - 这种高度依赖个人经验的临时运行环境难以被他人复现或复用,导致每个研究者和实验室都在手工维护自己的环境,而非基于共享、可复现的执行基础设施工作 [2] - 这种模式在结构上限制了科学软件的可复现性、大规模评估以及系统性集成,即便容器化、云计算和HPC平台已降低算力门槛,“部署瓶颈”依然长期制约科学软件的可用性 [2] - 随着AI for Science(AI4S)兴起,该问题被进一步放大,在新范式中AI系统需要与真实科学工具紧密交互,如调用求解器、执行模拟程序、运行分析管线、处理真实数据 [3][4] - 工具是否“真的能跑”从工程细节变为第一性问题,在Agentic Science场景中表现更尖锐,若工具依赖隐含环境且执行脆弱,智能体的规划将无法落地,执行失败也无法被结构化分析或转化为可学习轨迹 [5][6] - 工具是否部署就绪,已成为制约AI4S与Agentic Science规模化发展的结构性瓶颈,科学软件的核心问题不在于工具不够多,而在于缺乏能将工具系统性转化为可执行事实的共享基础设施 [7] 公司解决方案:Deploy-Master - 深势科技提出Deploy-Master,这是一个以执行为中心的一站式自动化工作流,旨在系统性解决科学软件的部署瓶颈 [1][8] - 该方案围绕部署的连续链路设计,涵盖工具能否被发现、是否被正确理解、能否构建环境以及是否真的可以被执行 [9][10] - Deploy-Master已用自动化工作流一次性部署验证超5万个工具,为Agentic Science铺平道路 [1] 技术实现与流程 - **Search Agent(发现阶段)**:从91个科学与工程领域出发构建学科空间,使用语言模型扩展搜索关键词,在GitHub与公共网络进行大规模检索,通过依赖关系、引用关系等信号迭代扩展初始“锚点”仓库,避免关键词搜索盲区 [12] - 通过多阶段漏斗流程,将最初约50万个仓库收敛为52,550个进入自动部署流程的科学工具候选,首次以结构化方式刻画了真实科学工具世界的规模与边界 [12] - **Build Agent(构建阶段)**:系统遍历仓库中的零散、不完整甚至矛盾的构建线索,必要时补充信息检索以生成初始构建方案 [15] - 引入双模型评审与辩论机制:一个模型提出构建规格,另一个独立审查并寻找潜在不一致、缺失依赖或环境假设,提出修正建议,通过多轮交互形成稳定方案,将构建成功率从单一模型的50%–60%提升至95%以上 [15] - 每个工具通过一个最小可执行命令进行验证,只有通过验证的工具才被视为成功部署,并被结构化、注册和发布到玻尔与SciencePedia平台,使其可被直接使用或被其他agent调用 [15] 部署成果与数据分析 - 从构建时间分布看,大规模部署过程不均匀,大多数工具可在7分钟左右完成构建,但整体呈明显长尾特征,部分涉及复杂编译流程、深层依赖的工具构建时间显著更长 [17] - 在成功部署的50,112个工具中,覆盖了170多种编程语言,Python占据最大比例,其次是C/C++、Notebook形式的工具、R、Java等,绝大部分语言部署成功率稳定在较高水平 [17] - 少数成功率较低的语言主要集中在依赖复杂编译链或系统级库的场景,如C/C++、Fortran及部分R工具,这反映了其工具链对底层环境耦合程度更高,放大了构建规格的不确定性 [17] - 在2,438次失败的构建尝试中,失败原因高度集中,最主要的来源是构建流程错误,包括构建步骤与仓库状态不一致、关键依赖缺失、编译器或系统库不匹配等,这类失败远多于资源不足、网络异常或权限问题 [18] - 资源相关错误在高并发阶段出现过,并推动了对调度策略和隔离机制的后续改进,表明在规模化部署中,失败应被视为系统暴露问题并自我修正的信号 [18] - 通过统一执行基础设施,得以系统观察科学软件在真实环境中的部署行为,识别哪些环节最容易失败、哪些隐含假设最常被触发、哪些工具链最容易放大不确定性 [18] - 这种可观测性让“科学软件难以部署”从经验判断转化为可量化、可分析、可持续改进的工程对象 [19][20] 对Agentic Science与行业的意义 - Deploy-Master的直接产出是一个由数万条执行验证工具构成的集合,为社区Agent与各类Master Agent提供了长期缺失的基础前提 [21] - 对Agent而言,只有当工具被统一构建、验证并注册为可执行能力,Agent才真正拥有稳定的action space,规划、执行与学习之间的闭环才得以成立 [22] - 这使得不同来源的社区Agent可以共享同一批经过执行验证的工具能力,而不再各自维护脆弱、不可复现的运行环境 [22] - 科学工具被视为自动化部署中最困难的一类,因其依赖复杂、系统耦合强、文档不完整、对环境高度敏感,在此“最难场景”中能在万级规模下稳定产生可运行工具,表明问题核心在于是否建立了以执行为核心的基础设施 [24] - 这一判断同样适用于更广泛的软件工具生态,包括工程工具、数据处理系统、专业软件乃至各类Agent Tooling,只要工具需要被执行,其部署问题就无法绕开“不完美信息”这一现实前提 [25] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提,当“工具能不能跑”成为被系统性验证的事实,科学智能体才真正开始拥有与现实世界交互的基础 [26]
让两个大模型「在线吵架」,他们跑通了全网95%科研代码|深势发布Deploy-Master
机器之心· 2026-01-09 14:16
科学软件部署的现状与瓶颈 - 绝大多数科学软件停留在“被发布过”而非“可直接运行”的状态,部署过程常需数天甚至数周解决编译、依赖和兼容性问题[3] - 这种手工维护、不可移植的模式在结构上限制了科学软件的可复现性、大规模评估和系统性集成[3] - 随着AI for Science兴起,工具是否“真的能跑”从工程细节变为第一性问题,AI系统需与科学工具紧密交互[3] - 在Agentic Science场景中,工具部署就绪问题更加尖锐,成为制约其规模化发展的结构性瓶颈[4][5] Deploy-Master项目的目标与设计 - 项目旨在解决科学软件“部署瓶颈”,核心判断是问题不在于工具不够多,而在于缺乏将工具系统性转化为可执行事实的共享基础设施[5] - 项目围绕“发现、理解、构建、执行”的连续部署链路,设计为以执行为中心的一站式自动化工作流[5] 工具发现与筛选流程 - 从91个科学与工程领域出发构建学科空间,使用语言模型扩展关键词,在GitHub等平台进行大规模检索[8] - 通过依赖、引用等信号迭代扩展初始“锚点”仓库,避免关键词搜索盲区[8] - 通过多阶段漏斗流程,从最初约50万个仓库收敛为52550个进入自动部署流程的科学工具候选[9] 自动化构建与验证机制 - 面对构建信息零散、不完整的现实,Build Agent系统遍历构建线索并生成初始方案[13] - 引入双模型评审与辩论机制,通过模型间多轮交互修正方案,将构建成功率从50%–60%提升至95%以上[13] - 每个工具通过最小可执行命令验证,成功部署的工具被结构化、注册并发布至玻尔与SciencePedia平台[13] 部署规模、成本与可观测性 - 构建时间分布呈现长尾特征,大部分工具可在7分钟左右完成,部分涉及复杂编译的工具耗时显著更长[15] - 在成功部署的50112个工具中,覆盖了170多种编程语言,Python占比最大,其次是C/C++、Notebook、R、Java等[16] - 部署成功率在大部分语言中维持较高水平,少数较低情况集中在依赖复杂编译链或系统级库的语言,如C/C++、Fortran[16] - 在2438次构建失败中,失败原因高度集中,最主要来源是构建流程错误,远多于资源、网络或权限问题[16] - 统一的执行基础设施使“科学软件难以部署”从经验判断转化为可量化、可分析、可改进的工程对象[17] 对Agentic Science与更广泛生态的意义 - 项目为社区Agent与各类Master Agent提供了长期缺失的基础前提,即经过执行验证的稳定行动空间[19] - 使得不同来源的社区Agent可以共享同一批可执行工具能力,无需各自维护脆弱环境[19] - 科学工具被视为自动化部署中最困难的一类,在此“最难场景”的成功表明,核心问题在于是否建立以执行为核心的基础设施[19] - 这一判断适用于更广泛的软件工具生态,只要工具需要被执行,就无法绕开“不完美信息”的现实前提[20] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提[20]