自演化科学发现系统
搜索文档
将科研脏活累活真·丢给AI!上海AI Lab推出深度科研智能体FlowSearch
量子位· 2025-10-14 12:08
产品核心特点 - FlowSearch是一个由动态结构化知识流驱动的深度科研智能体,通过构建科研任务的多层依赖图实现任务的并行探索和自适应优化[6][7] - 系统采用有向无环图将科研任务和知识关系可视化,每个节点携带任务类型和知识上下文,节点间的边定义信息流向,实现非线性的多路径探索[12][13] - 具备自组织、自纠错、自优化能力,能够根据新信息动态调整节点和依赖关系,确保知识流持续进化[19][24] 技术架构 - 由三大核心模块组成:Knowledge Flow Planner负责规划研究路线并拆解问题,Knowledge Collector执行任务并收集信息,Knowledge Flow Refiner反思和优化整个研究流程[8][9] - Planner模块采用递归扩展策略,从总问题出发逐层细化子任务,InternPlanner模型经过结构化科研任务数据微调,能够学习专家的拆解方式[16] - 多智能体框架下实现任务并行执行,Collector填充节点内容的同时Refiner动态调整流程,形成类似科研团队的协作机制[10] 性能表现 - 在GAIA基准测试中,FlowSearch(o4-mini)在Level 1达到90.56%,Level 2达到76.74%,Level 3达到50.00%,平均分为76.96%,显著优于其他方法[23] - 在GPQA-diamond基准上,生物领域84.21%,化学领域79.57%,物理领域96.51%,平均达到87.37%[23] - 在HLE基准的text only模式下达到31.60%,All模式下达到30.80%[23] - 专业基准TRQA测试中,FlowSearch依托通用工具链超越了多个领域专用模型[23] 技术验证 - 模块有效性验证显示,完整系统在GAIA基准平均分达76.96%,而去除动态知识流建模或反思模块会导致性能显著下降[26][27] - InternPlanner-32B相比基础模型Qwen-3-32B在GAIA基准上提升约6个百分点,从64.81%提升至70.91%,验证了结构化训练的有效性[28][29] - 与OWL对比案例显示,FlowSearch通过显式依赖建模与中间结果整合,有效避免证据丢失与逻辑链断裂[30] 应用价值 - 标志着科研智能体从"任务执行"向"知识驱动推理"的关键转变,为可解释科研智能体与自演化科学发现系统奠定基础[41][42] - 能够适配科学调研与报告生成任务,产出完整、全面且逻辑清晰的科学调研成果[32] - 对科研新人可构建完整知识探索路径,对跨学科研究者提供知识流整合能力,对资深学者可作为智能研究助手提升效率[43]