Workflow
AI for Science(AI4S)
icon
搜索文档
锦秋基金被投企业深度原理完成A2轮融资,加速AI for Materials范式重构|Jinqiu Spotlight
锦秋集· 2026-03-05 13:57
公司业务与定位 - 深度原理Deep Principle是一家全球领先的AI for Chemistry/Materials科技创新公司,致力于通过生成式AI与第一性原理计算加速化学材料创新 [2] - 公司的使命是“To Unlock Breakthrough Materials with AI”,即以AI解锁改变世界的新材料 [6] - 公司的愿景是“To Industrialize Materials Innovation with AI Scientists”,即以AI科学家为核心引擎,持续驱动材料领域的工业化创新 [7] 融资历程与资本认可 - 2025年初,锦秋基金参与了深度原理的亿元级Pre-A轮战略融资 [4] - 近期,公司完成了A2轮融资,由金蚂投资领投,晶泰科技、启高资本、BV百度风投等股东持续超额加码 [6] - 此轮融资彰显了资本市场及股东对公司技术实力、业务进展及长期发展前景的高度认可 [6] 技术战略与资金用途 - 公司致力于迭代升级“LLM + Diffusion”双驱的算法模型体系 [6] - 资金将用于打磨包括Agent Mira在内的全栈产品矩阵 [6] - 公司计划推进AI Materials Factory与自研管线的战略落地 [6] 行业背景与投资方 - 深度原理所处的赛道为AI for Science(AI4S)[4] - 投资方锦秋基金是一家拥有12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [4] - 公司期待联合行业伙伴及新老股东,推动科技创新与产业需求的深度融合,为全球材料科学注入AI动能 [7]
AI加速材料发现,技术进步催化,新材料ETF国泰(159761)收涨超2%
每日经济新闻· 2026-02-09 20:40
文章核心观点 - AI for Science(AI4S)研究范式正引领科研革命,AI构建了新材料研发新范式,能十倍级缩短传统研发周期,并驱动产业跨越“创新鸿沟” [1] - AI新材料预计将成为AI4S的重点应用与投资方向,以“AI预测+自动化实验”为核心的研发闭环已进入规模化验证阶段 [1] - AI不仅加速材料发现,更通过数字化工艺优化直接推动产业化,是实现制造产业升级的核心引擎 [1] 行业趋势与技术应用 - AI for Science(AI4S)通过赋能量子、原子与连续介质系统中的高级建模、仿真与预测,引领科研革命 [1] - AI构建了新材料研发新范式,驱动产业跨越“创新鸿沟” [1] - 以“AI预测+自动化实验”为核心的研发闭环已进入规模化验证阶段,能十倍级缩短传统研发周期 [1] - 未来AI有望从光伏钙钛矿向固态电池电解质、高温超导材料、半导体光刻胶等更高附加值的领域复制 [1] - AI通过数字化工艺优化直接推动产业化,是实现制造产业升级的核心引擎 [1] 市场表现与产品跟踪 - 2月9日,新材料ETF国泰(159761)收涨超2% [1] - 新材料ETF国泰(159761)跟踪的是新材料指数(H30597) [1] - 新材料指数(H30597)聚焦于新材料产业,选取涉及先进基础材料、关键战略材料及前沿新材料等业务领域的上市公司证券作为指数样本 [1] - 该指数反映在节能环保、信息科技、生物医药等高新技术领域从事材料创新与发展的相关上市公司证券的整体表现 [1]
AI引爆科学,MIT博士创业一年拿到数亿融资
新浪财经· 2026-02-09 08:15
AI for Science (AI4S) 行业概览 - 行业核心是使用人工智能进行新的科学发现,旨在解决基础科学领域的“卡脖子”问题,如新材料研发滞后和创新药研发成本过高 [2][32] - 2025年是行业关键拐点,中美均将其提升至国家战略级别,中国发布“人工智能+”计划,美国签署“创世纪计划”行政命令,同期硅谷涌现上百个AI4S创业项目 [6][36] - 全球科技巨头与资本加速布局,例如2026年英伟达与礼来宣布五年内斥资10亿美元建立联合AI药物研发实验室,国内腾讯、阿里巴巴、字节跳动等大厂也迅速跟进成立相关实验室或团队 [6][36] - 行业已出现成功案例与资本宠儿,例如AI for Drug公司晶泰科技于2024年成为港股18C上市第一股,并在2025年上半年实现盈利;深势科技在2025年12月完成总额超8亿元人民币的C轮融资 [22][52] - 行业面临数据基础薄弱、合作机制不健全等挑战,科学发现领域数据获取困难,化学材料领域的历史数据在数量与质量上均有缺失 [7][37] 深度原理公司概况 - 公司成立于2024年,总部位于杭州,创始人贾皓钧为MIT博士,专注于将生成式AI与第一性原理融合应用于材料研发 [3][33] - 公司核心团队为“完美拍档”组合,CTO段辰儒负责技术架构与算法研发,CEO贾皓钧负责战略、客户与团队搭建,COO张露阳为前Tenstorrent和地平线高管 [12][42][19][49] - 公司已自研六大算法模块,集成于“ReactiveAI”平台,该平台近期升级为材料发现智能体“Agent Mira”,可根据客户要求自主调动资源进行材料研发 [3][4][33][34] - 公司已完成多轮融资,累计达数亿元人民币,2025年11月完成超亿元人民币A轮融资,由戈壁创投管理的阿里创业者基金与蚂蚁集团领投,联想创投、百度风投等跟投 [7][22][37][52] - 公司坚持务实商业化路径,2025年已拿下千万元级别订单,客户覆盖保健日化、材料能源等多个领域,并计划从“项目制”转向平台订阅(PaaS)的产品化模式 [24][27][54][57] 核心技术优势与突破 - 公司开创了“分层生成”架构(ECML体系),结合扩散模型生成、第一性原理计算与高通量实验验证,将新材料研发效率提升数百倍,可在几分钟内生成筛选数千个候选材料,而传统方法需数月 [15][45] - 公司是全球首个验证扩散模型可直接生成化学分子、化学反应的团队,相关成果于2023年作为封面论文发表于《Nature Computational Science》,将新反应生成时间从数周缩短至数秒 [14][44] - 公司自研六大算法模块覆盖材料研发全流程:ReactGen(分子生成)、ReactBO(广域筛选)、Reactify(精准计算)、ReactControl(资源调度)、ReactNet(合成导航)、ReactHTE(高通量实验) [16][46] - 技术壁垒在于“数据—算法—算力—跨学科融合”的综合能力,特别是“高质量标注科研数据+领域专用算法”的组合,其ReactiveAI平台是针对化学反应优化的专用架构,难以简单复制 [29][59] - 为解决“最后一公里”的合成难题,公司于2025年下半年开始建设自有自动化实验室AI Materials Factory,以验证并实现计算预测材料的实际合成 [28][58] 商业化进展与战略 - 公司与欧洲某美妆跨国巨头的合作是商业化关键案例,在一个月内从8000多个分子中筛选出6个有效配体添加剂,解决了活性组分稳定性问题,而传统实验方法需耗时数月且成本高昂(每50g测试原料达万元) [26][56] - 当前商业化策略以“与客户合作研发终端垂类应用”为主,通过小范围试点验证技术价值,比直接销售平台更易于普及AI技术 [27][57] - 公司计划以ReactiveAI平台及智能体Agent Mira为基座,未来转向平台订阅(PaaS)的产品化模式,作为主要收入来源 [27][57] - 公司竞争优势在于聚焦垂直细分场景(如新能源材料、特种化工材料),通过“技术+场景”绑定抵御大厂竞争,并凭借跨学科复合型团队构建护城河 [29][59] - 公司目标在于全球竞争,认为在AI for Science领域中美处于同一起跑线,当前是弯道超车的机遇期 [29][59]
AI4S科研基础设施路线图亮相,打通科研智能化“最后一公里”
第一财经· 2026-01-29 21:59
行业趋势与基础设施 - 面向AI for Science的关键基础设施已逐步成形,规模化、智能体驱动的科学研究从概念走向现实的时机趋于成熟 [3] - Agentic Science at Scale的新时代已正式开启 [3] - 产学研战略签约旨在打通科研智能化、规模化的“最后一公里” [3] 核心成果发布:科研智能体 - 通用科研智能体SciMaster旨在实现全学科科研“搜、读、算、做、写”全流程闭环 [4] - SciMaster依托海量工具调用与超长程上下文管理两大核心技术能力,提供“自动驾驶”般的科研体验 [4] - SciMaster的6小时运行成果可比肩资深理论物理学博士1至3个月的饱和工作量 [4] 核心成果发布:科学基座模型 - 科学基座模型Innovator实现了科学多模态感知、科学推理、科学工具调用三个目标 [4] - 在感知方面,Innovator支持20多种科学模态,并具备顶尖的通用视觉理解能力 [4] - 在科学推理方面,Innovator在科学编程任务上超越30倍参数量的模型 [4] 产学研合作 - 上海赛兰德智能科技有限公司分别与上海埃迪希科技服务有限公司、上海库帕思科技有限公司签署战略合作协议 [4] - 合作将围绕科研算力供给与数据价值挖掘展开 [4]
AI4S科研基础设施路线图亮相,打通科研智能化“最后一公里”
第一财经资讯· 2026-01-29 20:33
行业趋势与基础设施 - 面向AI for Science的关键基础设施已逐步成形 规模化、智能体驱动的科学研究从概念走向现实的时机趋于成熟 [1] - 科研智能化、规模化时代已正式开启 Agentic Science at Scale的新时代已开启 [3] 核心成果发布 - 发布科学基座模型Innovator 该模型实现了科学多模态感知、科学推理、科学工具调用三个目标 [4] - 在科学编程任务上 其科学推理能力超越30倍参数量的模型 [4] - 发布通用科研智能体SciMaster 旨在实现全学科科研“搜、读、算、做、写”全流程闭环 [3] - SciMaster依托海量工具调用与超长程上下文管理两大核心技术 其6小时运行成果可比肩资深理论物理学博士1至3个月的饱和工作量 [3] 技术能力细节 - Innovator基座模型支持20多种科学模态 面向化学、材料、物理等学科多模态科学数据建立理解能力 同时具备顶尖的通用视觉理解能力 [4] - 通用科研智能体SciMaster为用户提供“自动驾驶”般的科研体验 [3] 产学研合作进展 - 研讨会举行了产学研战略签约 旨在打通科研智能化、规模化的“最后一公里” [1] - 上海赛兰德智能科技有限公司分别与上海埃迪希科技服务有限公司、上海库帕思科技有限公司签署战略合作协议 围绕科研算力供给与数据价值挖掘开展合作 [4]
AI4S电池创新价值兑现,三个痛点:真实、规律、效率
高工锂电· 2026-01-13 23:57
文章核心观点 - 当前主流AI(如大语言模型)在理解真实物理世界方面存在根本性局限,而AI for Science (AI4S) 是让AI进入并理解由物理、化学和数学规律构成的真实科学世界的关键方向 [1] - AI4S正从概念走向产业实践,其核心价值在于回归真实科学问题,通过理解微观世界的规律来驱动高效的研发创新,并已在电池、医药等领域创造出真实的经济价值 [2][3][5] - 以SES AI的“分子宇宙”平台为例,AI4S的成功路径在于:先长期深耕垂直科学领域以积累对现实的理解(“科学品味”),再运用AI工具放大这种判断力,最终实现研发效率的质变和产业突破 [4][6][20][21] AI4S的产业价值与市场验证 - **产业突破实例**:基于SES AI的“分子宇宙”平台,已有6款突破性新型电解质材料完成开发验证,并与全球超过40家电池及材料企业推进测试与量产导入 [3] - **资本市场关注**:AI4S领域已出现多笔大额融资,例如SandboxAQ完成3亿美元融资后估值达56亿美元,Periodic Labs以13亿美元估值完成3亿美元种子轮融资 [3] - **独立估值参考**:如果“分子宇宙”平台是一个独立公司,其价值也将达到数十亿美元量级 [3] - **成功上市案例**:晶泰科技作为AI4S赛道公司,于2024年成功在港股上市,其成长源于在医药研发垂直领域的长期深耕,获得了国际药企与资本市场的认可 [4] AI4S在电池领域的具体应用与成果 (以SES为例) - **平台演进逻辑**:“分子宇宙”平台的核心逻辑是先锚定真实的微观世界,提炼科学规律,再叠加AI捕捉数据背后的数学规律,最终释放科研效率 [10] - **六大关键场景解决方案**:平台已催生覆盖低硅负极、高硅负极、锂金属、高电压LCO、LFP储能以及凝胶电解质等场景的突破性电解液方案 [7] - **低硅负极电解液**:在60°C高温存储测试中,性能较行业基准提升26% [7] - **高硅负极电解液**:目标在1C/1C和4C/1C条件下,实现比商业标杆超过20%的循环寿命提升 [8] - **极致快充电解液**:在4C-4C极速充放电循环条件下,已展现出比传统基线配方更优的循环寿命 [9] - **高电压电解液**:在4.58V超高电压、45°C高温下循环200周后,容量保持率稳定超越行业头部客户的现有基线配方 [9] - **LFP体系电解液**:在多项关键性能上达到或超越了全球动力电池龙头的产品 [9] - **凝胶电解质**:在多项测试中,性能均优于主流商用液态电解液 [9] - **性能突破**:借助平台发现的新电解液配方,公司将锂金属电池能量密度推至500Wh/kg,并将硅碳电池提升至接近400Wh/kg水平 [18] “分子宇宙”平台的核心能力框架 - **真实:构建可计算的电池分子世界** - **数据规模与真实性**:平台构建了映射真实微观理化性质的可计算世界,其MU-1版本基于超过2亿分子的DFT计算与混合精度建模 [11] - **数据源**:分子数据不仅包括结构,更附着了由高精度计算校准的物化性质,以及来自实际电芯测试的性能与失效数据(包含“失败样本”) [12] - **验证闭环**:平台工作流强调“预测-验证”的强制闭环,迫使AI推理建立在与物理世界一致的约束之上 [12] - **持续深化**:MU-1.5版本新增对12%硅碳负极和100%硅碳负极搭配高镍正极的专项支持,并利用前沿研发的独家数据使虚拟筛选更贴近真实高端应用工况 [12] - **规律:从统计关联到因果洞察** - **引入领域智慧**:MU-1.5引入了“Flavor”(风味标签)系统,将人类科学家数十年积累的领域智慧进行系统化编码,包含7种结果导向标签和9种机制导向标签 [14][15] - **搜索逻辑升级**:AI搜索从基于分子结构相似性,升级到基于功能与机理的相似性,相当于将顶级科学家的经验与直觉转化为可被AI复制和拓展的数字化规律 [15] - **自主发现规律**:平台的Predict模块能通过分析海量电芯循环时序数据,学习退化模式并预测长期寿命,捕捉可能连科学家都未清晰阐明的高阶数理关联规律 [15] - **效率:从流程工具到可私有进化的研发大脑** - **智能工作流**:平台构建了Ask → Search → Formulate → Design → Predict的智能工作流,系统性地将灵感生成、方向筛选、时间验证成本“坍缩”进计算循环 [16] - **私有化部署**:“MU in a Box”是一套可实现完全离线、数据不出厂的本地化部署一体机,解决了顶级企业对数据安全的顾虑 [17] - **个性化与自进化**:企业可利用自身专有数据训练专属的“私人宇宙”,让AI工具迅速适配自身最紧迫的研发战线,使效率竞争升级为企业间“私有智能体”进化速度的竞争 [17] - **能力产品化**:平台淬炼出的效率能力开始以软硬结合形式产品化,例如通过收购获取海量LFP数据训练预测模型,并将其封装为硬件提供“电池健康预测即服务” [18] AI4S的成功路径与护城河 - **发展路径**:真正有价值的AI4S公司往往成长于具体科学领域的长期实践之中,先在微观世界具备“理解现实”的能力,再在AI4S领域大展拳脚 [4][6] - **核心护城河**:在AI时代,“品味”(Taste)是唯一的护城河,对于AI4S而言,“科学品味”源于在真实研发中长期深耕、反复校准后形成的判断力 [21] - **平台定位**:“分子宇宙”平台旨在成为AI时代电池研发的工作台,帮助研发工作者将其“研发品味”转化为现实中可验证的性能提升与产业成果 [21]
AI4S又一瓶颈被攻克:两个AI「吵架」,让科研代码部署成功率突破95%
量子位· 2026-01-13 17:50
文章核心观点 - 当前科学软件领域存在严重的“部署瓶颈”,绝大多数开源工具停留在“被发布过”而非“可直接运行”的状态,这严重制约了科学研究的可复现性、大规模评估和系统性集成 [3][4][6] - 随着AI for Science (AI4S) 和 Agentic Science 的兴起,工具是否“真的能跑”从工程细节变为第一性问题,成为制约其规模化发展的结构性瓶颈 [8][9][11] - Deploy-Master 项目被提出,旨在通过构建一个以执行为中心的一站式自动化工作流,将科学软件系统性转化为可执行事实,从而为智能体提供稳定、可复现的执行地基 [11][12][36] 科学软件部署现状与挑战 - 科学计算领域积累了数量空前的开源软件工具,覆盖生物信息学、化学模拟、材料计算、物理仿真与工程设计等众多学科方向 [1][2] - 绝大多数科学软件难以直接运行,研究团队常需花费数天甚至数周解决编译失败、依赖冲突、系统不兼容等问题,导致运行环境临时、不可移植且难以复现 [3][4] - 这种模式不仅效率低下,更在结构上限制了科学软件的可复现性、大规模评估以及系统性集成 [5][6] - 即便容器化、云计算和HPC平台降低了算力门槛,“部署瓶颈”依然长期存在并制约着科学软件的可用性 [7] AI4S与Agentic Science对部署的新要求 - 在AI for Science新范式中,AI系统需要与真实科学工具紧密交互,调用求解器、执行模拟程序等,因此工具是否“真的能跑”成为第一性问题 [8][9] - 在Agentic Science场景中,若工具依赖隐含环境、执行脆弱,将导致智能体规划无法落地,执行失败无法被结构化分析,阻碍可学习执行轨迹的形成 [10] - 工具是否部署就绪,已成为制约AI4S与Agentic Science规模化发展的结构性瓶颈 [11] Deploy-Master解决方案概述 - Deploy-Master被设计为一个以执行为中心的一站式自动化工作流,围绕工具发现、理解、环境构建和最终执行这条连续链路展开 [12] - 其直接产出是一个由数万条经过执行验证的工具构成的集合,为社区Agent与各类Master Agent提供了长期缺失的稳定执行前提 [35] - 该方法论的意义不局限于科学计算,科学工具被视为自动化部署中最困难的一类,若在此场景能成功,结论表明问题核心在于是否建立了以执行为核心的基础设施 [36] 工具发现与筛选 (Search Agent) - 团队从91个科学与工程领域出发,构建覆盖AI4S应用场景的学科空间,并使用语言模型扩展关键词,在GitHub与公共网络进行大规模检索 [14] - 通过依赖关系、引用关系等信号对初始召回仓库进行迭代扩展,避免仅依赖关键词搜索的盲区 [14] - 通过结构启发式规则和Agent语义判断进行筛选,将最初约50万个仓库收敛为52,550个进入自动部署流程的科学工具候选 [15] 自动化构建与验证 (Build Agent) - 面对构建信息零散、不完整甚至矛盾的情况,Build Agent系统遍历仓库构建线索并补充检索,生成初始构建方案 [18][19][20] - 早期实验表明,仅依赖单一模型生成构建规格的成功率只有50%–60% [21] - 引入双模型评审与辩论机制,通过多轮交互修正方案,将整体构建成功率提升到了95%以上 [21][22] - 每个工具最终通过一个最小可执行命令进行验证,只有通过验证的才会被视为成功部署并被注册发布 [23] 部署规模与特征分析 - 从构建时间分布看,大规模部署过程不均匀,大多数工具可在7分钟左右完成构建,但整体呈明显长尾特征 [25] - 在成功部署的50,112个工具中,覆盖了170多种编程语言,Python占比最大,其次是C/C++、Notebook、R、Java等 [27][28] - 绝大部分语言部署成功率维持在较高水平,少数较低的语言(如C/C++、Fortran)主要因依赖复杂编译链或系统级库,反映了环境耦合强度的影响 [28][29][30] - 在2,438次失败的构建尝试中,失败原因高度集中,最主要的来源是构建流程错误(如步骤不一致、关键依赖缺失、编译器不匹配),远多于资源不足或网络异常等问题 [31][32][33] 项目意义与未来展望 - Deploy-Master建立的可观测性,让“科学软件难以部署”从经验判断转化为可量化、可分析、可持续改进的工程对象 [34] - 只有当工具被统一构建、验证并注册为可执行能力,Agent才真正拥有稳定的行动空间,规划、执行与学习之间的闭环才得以成立 [36] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提 [37] - 项目未来仍需面对异构硬件、分布式计算、语义级I/O接口等挑战 [36]
英伟达将AI4S列为AI,三大方向今年或是爆发年
选股宝· 2026-01-11 23:07
行业趋势与前景 - 智谱AI创始人唐杰表示,2024年可能是AI for Science(AI4S)的爆发年,因相关能力将大幅提升[1] - 英伟达将AI4S与大语言模型、具身智能并列为人工智能的三大发展方向[1] - AI4S旨在利用人工智能从海量科学数据中发现新规律、加速科学发现进程[1] - AI4S已超越实验室“概念验证”阶段,成为全球科技巨头竞相角逐的战略主战场[1] - AI4S的应用已涵盖预测蛋白质功能、设计新材料、发现新药物靶点等多个领域,帮助科学家高效获取科研成果[1] 相关上市公司 - A股市场中与AI for Science(AI4S)相关的概念股包括健康元、东北制药等公司[2]
这脑洞神了,两AI“互喷”,竟治好祖传科研软件95%老毛病?
36氪· 2026-01-09 20:22
行业背景与核心问题 - 科学计算领域在过去几十年积累了数量空前的开源软件工具,覆盖生物信息学、化学模拟、材料计算、物理仿真与工程设计等多个学科方向,在GitHub等平台上有成千上万个代码仓库 [2] - 但绝大多数科学软件停留在“被发布过”的状态,而非“可以直接运行”,在真实科研中部署工具常需花费数天甚至数周解决编译失败、依赖冲突、系统不兼容等问题 [2] - 这种高度依赖个人经验的临时运行环境难以被他人复现或复用,导致每个研究者和实验室都在手工维护自己的环境,而非基于共享、可复现的执行基础设施工作 [2] - 这种模式在结构上限制了科学软件的可复现性、大规模评估以及系统性集成,即便容器化、云计算和HPC平台已降低算力门槛,“部署瓶颈”依然长期制约科学软件的可用性 [2] - 随着AI for Science(AI4S)兴起,该问题被进一步放大,在新范式中AI系统需要与真实科学工具紧密交互,如调用求解器、执行模拟程序、运行分析管线、处理真实数据 [3][4] - 工具是否“真的能跑”从工程细节变为第一性问题,在Agentic Science场景中表现更尖锐,若工具依赖隐含环境且执行脆弱,智能体的规划将无法落地,执行失败也无法被结构化分析或转化为可学习轨迹 [5][6] - 工具是否部署就绪,已成为制约AI4S与Agentic Science规模化发展的结构性瓶颈,科学软件的核心问题不在于工具不够多,而在于缺乏能将工具系统性转化为可执行事实的共享基础设施 [7] 公司解决方案:Deploy-Master - 深势科技提出Deploy-Master,这是一个以执行为中心的一站式自动化工作流,旨在系统性解决科学软件的部署瓶颈 [1][8] - 该方案围绕部署的连续链路设计,涵盖工具能否被发现、是否被正确理解、能否构建环境以及是否真的可以被执行 [9][10] - Deploy-Master已用自动化工作流一次性部署验证超5万个工具,为Agentic Science铺平道路 [1] 技术实现与流程 - **Search Agent(发现阶段)**:从91个科学与工程领域出发构建学科空间,使用语言模型扩展搜索关键词,在GitHub与公共网络进行大规模检索,通过依赖关系、引用关系等信号迭代扩展初始“锚点”仓库,避免关键词搜索盲区 [12] - 通过多阶段漏斗流程,将最初约50万个仓库收敛为52,550个进入自动部署流程的科学工具候选,首次以结构化方式刻画了真实科学工具世界的规模与边界 [12] - **Build Agent(构建阶段)**:系统遍历仓库中的零散、不完整甚至矛盾的构建线索,必要时补充信息检索以生成初始构建方案 [15] - 引入双模型评审与辩论机制:一个模型提出构建规格,另一个独立审查并寻找潜在不一致、缺失依赖或环境假设,提出修正建议,通过多轮交互形成稳定方案,将构建成功率从单一模型的50%–60%提升至95%以上 [15] - 每个工具通过一个最小可执行命令进行验证,只有通过验证的工具才被视为成功部署,并被结构化、注册和发布到玻尔与SciencePedia平台,使其可被直接使用或被其他agent调用 [15] 部署成果与数据分析 - 从构建时间分布看,大规模部署过程不均匀,大多数工具可在7分钟左右完成构建,但整体呈明显长尾特征,部分涉及复杂编译流程、深层依赖的工具构建时间显著更长 [17] - 在成功部署的50,112个工具中,覆盖了170多种编程语言,Python占据最大比例,其次是C/C++、Notebook形式的工具、R、Java等,绝大部分语言部署成功率稳定在较高水平 [17] - 少数成功率较低的语言主要集中在依赖复杂编译链或系统级库的场景,如C/C++、Fortran及部分R工具,这反映了其工具链对底层环境耦合程度更高,放大了构建规格的不确定性 [17] - 在2,438次失败的构建尝试中,失败原因高度集中,最主要的来源是构建流程错误,包括构建步骤与仓库状态不一致、关键依赖缺失、编译器或系统库不匹配等,这类失败远多于资源不足、网络异常或权限问题 [18] - 资源相关错误在高并发阶段出现过,并推动了对调度策略和隔离机制的后续改进,表明在规模化部署中,失败应被视为系统暴露问题并自我修正的信号 [18] - 通过统一执行基础设施,得以系统观察科学软件在真实环境中的部署行为,识别哪些环节最容易失败、哪些隐含假设最常被触发、哪些工具链最容易放大不确定性 [18] - 这种可观测性让“科学软件难以部署”从经验判断转化为可量化、可分析、可持续改进的工程对象 [19][20] 对Agentic Science与行业的意义 - Deploy-Master的直接产出是一个由数万条执行验证工具构成的集合,为社区Agent与各类Master Agent提供了长期缺失的基础前提 [21] - 对Agent而言,只有当工具被统一构建、验证并注册为可执行能力,Agent才真正拥有稳定的action space,规划、执行与学习之间的闭环才得以成立 [22] - 这使得不同来源的社区Agent可以共享同一批经过执行验证的工具能力,而不再各自维护脆弱、不可复现的运行环境 [22] - 科学工具被视为自动化部署中最困难的一类,因其依赖复杂、系统耦合强、文档不完整、对环境高度敏感,在此“最难场景”中能在万级规模下稳定产生可运行工具,表明问题核心在于是否建立了以执行为核心的基础设施 [24] - 这一判断同样适用于更广泛的软件工具生态,包括工程工具、数据处理系统、专业软件乃至各类Agent Tooling,只要工具需要被执行,其部署问题就无法绕开“不完美信息”这一现实前提 [25] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提,当“工具能不能跑”成为被系统性验证的事实,科学智能体才真正开始拥有与现实世界交互的基础 [26]
让两个大模型「在线吵架」,他们跑通了全网95%科研代码|深势发布Deploy-Master
机器之心· 2026-01-09 14:16
科学软件部署的现状与瓶颈 - 绝大多数科学软件停留在“被发布过”而非“可直接运行”的状态,部署过程常需数天甚至数周解决编译、依赖和兼容性问题[3] - 这种手工维护、不可移植的模式在结构上限制了科学软件的可复现性、大规模评估和系统性集成[3] - 随着AI for Science兴起,工具是否“真的能跑”从工程细节变为第一性问题,AI系统需与科学工具紧密交互[3] - 在Agentic Science场景中,工具部署就绪问题更加尖锐,成为制约其规模化发展的结构性瓶颈[4][5] Deploy-Master项目的目标与设计 - 项目旨在解决科学软件“部署瓶颈”,核心判断是问题不在于工具不够多,而在于缺乏将工具系统性转化为可执行事实的共享基础设施[5] - 项目围绕“发现、理解、构建、执行”的连续部署链路,设计为以执行为中心的一站式自动化工作流[5] 工具发现与筛选流程 - 从91个科学与工程领域出发构建学科空间,使用语言模型扩展关键词,在GitHub等平台进行大规模检索[8] - 通过依赖、引用等信号迭代扩展初始“锚点”仓库,避免关键词搜索盲区[8] - 通过多阶段漏斗流程,从最初约50万个仓库收敛为52550个进入自动部署流程的科学工具候选[9] 自动化构建与验证机制 - 面对构建信息零散、不完整的现实,Build Agent系统遍历构建线索并生成初始方案[13] - 引入双模型评审与辩论机制,通过模型间多轮交互修正方案,将构建成功率从50%–60%提升至95%以上[13] - 每个工具通过最小可执行命令验证,成功部署的工具被结构化、注册并发布至玻尔与SciencePedia平台[13] 部署规模、成本与可观测性 - 构建时间分布呈现长尾特征,大部分工具可在7分钟左右完成,部分涉及复杂编译的工具耗时显著更长[15] - 在成功部署的50112个工具中,覆盖了170多种编程语言,Python占比最大,其次是C/C++、Notebook、R、Java等[16] - 部署成功率在大部分语言中维持较高水平,少数较低情况集中在依赖复杂编译链或系统级库的语言,如C/C++、Fortran[16] - 在2438次构建失败中,失败原因高度集中,最主要来源是构建流程错误,远多于资源、网络或权限问题[16] - 统一的执行基础设施使“科学软件难以部署”从经验判断转化为可量化、可分析、可改进的工程对象[17] 对Agentic Science与更广泛生态的意义 - 项目为社区Agent与各类Master Agent提供了长期缺失的基础前提,即经过执行验证的稳定行动空间[19] - 使得不同来源的社区Agent可以共享同一批可执行工具能力,无需各自维护脆弱环境[19] - 科学工具被视为自动化部署中最困难的一类,在此“最难场景”的成功表明,核心问题在于是否建立以执行为核心的基础设施[19] - 这一判断适用于更广泛的软件工具生态,只要工具需要被执行,就无法绕开“不完美信息”的现实前提[20] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提[20]