Workflow
ReCAP
icon
搜索文档
全面战胜ReAct,斯坦福全新智能体推理框架,性能提升112.5%
36氪· 2025-12-03 10:33
核心观点 - 斯坦福与MIT研究团队推出新型AI智能体推理框架ReCAP,在长上下文任务中性能全面超越当前主流框架ReAct,解决了目标漂移、上下文断层和成本爆炸等关键问题,成为极具潜力的新一代通用推理架构 [1] 技术突破与性能表现 - ReCAP在多项基准测试中大幅领先:在Robotouille(同步)任务上取得70%成功率,较ReAct的38%提升84.2%;在Robotouille(异步)任务上取得53%成功率,较ReAct的24%提升112.5% [2][14] - 在ALFWorld任务上取得91%成功率,优于ReAct的84%;在SWE-bench Verified任务上取得44.8%成功率,优于ReAct的39.58% [8][14] - 团队严格遵循pass@1(一次通过)评测原则,不使用重试或投票,证明其在真实多步环境中能更好地保持目标一致性与执行连贯性 [10] 框架核心机制 - ReCAP通过三大机制解决长上下文任务痛点:计划前瞻分解、结构化父任务再注入、滑动窗口记忆 [13] - 核心是采用一个有记忆、有反馈的递归树结构作为模型的工作记忆区,统一了序列推理和层级推理 [1][8] - 通过单一共享上下文和滑动窗口保留最新关键历史,实现了内存占用可控的深度递归,从根本上杜绝了成本爆炸 [13] 解决的问题与行业背景 - 当前大语言模型在执行复杂长上下文任务时存在三大问题:目标漂移、上下文断层、成本爆炸 [3][6] - 自2022年ReAct框架提出后,其因示例简单、高通用性和即插即用优势,成为过去三年该领域事实上的主流与标杆 [1] - 许多复杂架构因在更换评测基准时需要大幅修改示例,表现不如ReAct稳定泛用 [1] 优势与成本权衡 - ReCAP继承了ReAct示例简单、高通用性和即插即用的优势 [1] - 其总计算成本约为ReAct的三倍,主要来自计划前瞻分解机制所需的额外LLM调用 [11] - 考虑到其在关键任务上带来的性能巨幅提升与目标一致性,这种成本增加在对准确性要求高的实际应用中是可以接受的 [11] 应用潜力与未来展望 - ReCAP是除ReAct外,又一个能在具身推理和代码编辑这两种截然不同任务上都取得稳健表现的通用推理架构 [10] - 其递归规划能力可与空间智能结合,为具身智能机器人规划复杂的长期任务序列,实现动态环境中的自主规划与可靠执行 [15] - 适用于任何依赖复杂决策回路与长期上下文记忆的大型任务,如深度研究中的文献遍历与报告生成,或复杂软件工程中的代码库管理 [12]