科学任务自动化

搜索文档
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
机器之心· 2025-06-26 08:30
背景与动机 - AI在科学研究中的角色从"分析器"转变为具备执行能力的"新型合作者",能够操作计算机完成真实科研任务[3] - 科研场景的复杂性(软件多样性、长周期任务、跨模态信息)使得AI完成科研任务比解答科学问题更困难[4] - 现有智能体系统在通用任务上有进展,但缺乏真实科研环境与评估基准来推动从"会说会写"到"会做"的转变[4] 科研任务挑战 - 现有评测集中在日常场景和通用软件,复杂性未触及真实科研工作[5] - 科学评测任务仍停留在QA和静态代码编写,未涉及非标准I/O流、复杂界面逻辑等真实挑战[5] - 需要可靠环境和多模态多领域评测基准来评估科学任务自动化程度[5] ScienceBoard基建 - 基于Ubuntu虚拟机搭建,集成6个科学领域开源软件,支持CLI/GUI双通道交互[13][16] - 定义通用动作空间,包括GUI操作、CLI命令执行、流程控制等,实现跨软件跨模态通用执行接口[15][17][18] - 配备自动初始化脚本和评估函数,确保评测可复现性和执行级评估[16] 评测集构建 - 收录169个真实科研任务,横跨6个领域(生物化学、天文模拟、地理信息系统等)[23] - 任务类型涵盖基础设置、科学模拟、图形绘制、数据查询、文档撰写、复合工作流等[23] - 任务划分为四类难度:Easy(54%)、Medium(28%)、Hard(17%)和Open Problems[28] 实验评估结果 - 商业大模型(GPT-4o、Claude 3.5)平均成功率仅15%,开源模型表现不稳定[27] - 专门设计的GUI Action Models在长任务和跨模态任务上明显受限[27] - 模块化设计(规划与执行解耦)显著提升成功率,尤其在复杂界面和长操作链任务中[32][33] 未来方向 - 智能体需要结合领域知识,通过Manual和Tutorial进行任务相关学习[34] - 构建"科研AI团队",由planner、GUI模型、领域专家模型按需组合[34] - 为实验室层面智能化探索打下基础,推动AI科学家从数字概念走向现实[35] 研究意义 - 首个聚焦科学探索的多模态智能体评测框架,提供真实可交互环境和程序化评估机制[37] - 揭示当前模型在复杂科研工作流中成功率显著低于人类,为全自动化AI科学家提供起点[37]