Workflow
MUSE
icon
搜索文档
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架
量子位· 2025-10-22 07:50
MUSE框架核心创新 - 提出全新的智能体框架MUSE,旨在解决现有LLM智能体在处理现实世界长程任务时无法积累经验和持续自我进化的核心挑战[1] - 核心理念是为LLM智能体构建经验驱动、自我演化的闭环系统,通过测试时学习范式解决静态参数、无法进化、长程任务三大痛点[5] - 框架围绕分层记忆模块展开,实现规划→执行→反思→提取经验的四步闭环循环,使智能体性能随经验积累持续提高[13][15] 分层记忆模块设计 - 引入分层记忆模块作为大脑中枢,组织不同层级经验以解决传统LLM智能体缺乏长期记忆的问题[7] - Strategic Memory保存困境-策略对,全局加载到系统提示指导宏观行为范式[7] - Procedural Memory按应用→SOP索引→详细步骤三级组织,将成功子任务轨迹实时沉淀为自然语言标准作业程序[7] - Tool Memory包含静态描述和动态指令双组件,为每个基础工具提供肌肉记忆并在使用后立即更新[8] 自主反思机制 - 在每完成一个子任务后,智能体会自主对执行轨迹进行反思,评估任务成功或失败[10] - 将原始执行轨迹自动转化为结构化经验,成功时提炼高效操作序列作为新SOP[11] - 具备第二次机会机制,第一次尝试失败可重试一次,再次失败才触发重新规划[12] 实验性能表现 - 在专为长期生产力任务设计的TAC基准测试上取得SOTA性能,指标首次突破50%大关达到51.78%[16] - 仅使用轻量级Gemini-2.5 Flash模型就击败了使用更大模型Claude Sonnet 4的现有SOTA方法[16] - 面对重复任务时表现持续改进,展示出熟能生巧的能力[19] 泛化与迁移能力 - 积累的经验具备强大泛化特性,在全新未见任务上能实现零样本改进[21] - 经验可迁移性显著,将闭源模型经验迁移到开源模型DeepSeek-V3后,使其在一众开源模型中成为SOTA[22] - DeepSeek-V3使用MUSE带记忆框架后,检查点通过率从34.12%提升至50.59%[23] 实际应用演示 - 在模拟人类项目经理管理公司项目issue的演示中,MUSE能在包括GitLab、Plane在内的多个软件平台来回跳转操作,无需人类介入完成复杂任务[3] - 智能体可创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程[24] - 能够跨越多个平台依次与同事沟通,执行超过100个步骤圆满完成复杂任务[26] 技术开源与未来方向 - MUSE的论文与代码已经完成开源[4] - 未来研究方向包括引入人类反馈和人类示范集成到记忆系统中,加速AI智能体学习效率[29] - 需要优化经验检索效率,确保新旧知识无缝整合,实现真正的终身持续学习[30] - 需创建更全面的长期任务评估基准,多维度考察智能体记忆保留能力、技能迁移能力和主动决策能力[31]
同行评审濒临崩溃,一篇审稿报告450美元?科学家不再愿意「用爱发电」
36氪· 2025-09-01 15:54
智利的超大望远镜上有一台名叫MUSE的设备,能让研究人员探测最遥远的星系。 它非常抢手,以至于在十月至次年四月的观测季中,全球科学家申请的使用总时长超过了3000小时。 问题来了:这相当于379个通宵的工作量,而观测季总共只有七个月。 就算MUSE是台宇宙时光机,时间也完全不够用。 以往,管理这台望远镜的欧洲南方天文台(ESO)会组织专家团,从海量申请中挑选出最有价值的项目。 但随着申请书的爆炸式增长,专家们也渐渐不堪重负。 因此,ESO在2022年想出了一个新办法:把评审工作下放给申请者。 也就是说,任何团队想申请使用望远镜,就必须同时帮忙评审其他竞争对手的申请方案。 这种「申请者互评」的模式,正成为解决同行评审领域劳动力短缺的一个热门方案。 如今,学术论文越来越多,期刊编辑们叫苦不迭,因为想找人帮忙审稿正变得越来越难。 ESO这样的资助机构,也同样在为找不到足够的评审专家而发愁。 这个系统压力山大的后果是什么呢? 研究质量下滑:许多人指出,现在一些期刊上出现了质量低劣、甚至错误百出的研究,这说明同行评审没能把好质量关。 创新想法被埋没:也有人抱怨,现有评审流程过于繁琐死板,导致一些真正激动人心的好点子拿不 ...