突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

文章核心观点 - MEM1框架通过强化学习训练AI Agent自主管理记忆和推理显著提升处理复杂任务时的效率和性能 [2][3][6][8][9][12][17][22] 技术原理 - 采用基于结果奖励的强化学习训练使模型学会提取、整合和修剪信息 [12][14] - 引入内部状态作为工作记忆实现近似常量级显存开销 [8][9][16] - 通过注意力掩码机制限制关注范围迫使模型高效压缩历史信息 [12] 性能表现 - 7B参数MEM1模型推理速度达传统14B模型的3.5倍 [2] - 峰值上下文token数量降至传统模型的1/4 [2] - 在16目标任务测试中准确率12.3% 远超对比模型Qwen2.5-14B-Instruct的3.54%和Qwen2.5-7B+外部记忆模块的4.56% [3][17] 应用场景 - 支持多轮复杂任务处理包括文档检索QA、开放域Web QA和多轮网购决策 [19] - 展现分问题独立存储、自适应搜索策略和任务规划能力 [20] - 在长程环境交互任务中保持上下文稳定避免线性增长 [16] 行业意义 - 为处理长推理上下文挑战提供新思路替代传统外部记忆模块方案 [22] - 实现端到端训练降低工程复杂度并提升效果可控性 [12][22] - 论文已被COLM 2025 RAM workshop收录为口头报告 [3]