Workflow
长时程记忆
icon
搜索文档
为Transformer注入长期记忆:Memo框架通过“学会做摘要”解决具身智能核心挑战
机器人大讲堂· 2025-10-29 18:03
Memo框架核心思想与设计 - 核心思想是模仿人类“笔记”行为,让模型自主生成并存储对过去经验的“摘要”,这些学习得到的摘要标记承载了任务关键信息,使得后续决策无需回溯全部经历,仅通过检索摘要即可唤醒长期记忆 [3] - 工作流程包括分段处理长输入序列、在每个片段末尾生成固定数量的优化摘要标记、将摘要存入动态更新的记忆缓冲区形成经验库 [4][5] - 采用特殊注意力掩蔽机制确保模型只能通过摘要标记访问过去信息,形成有意识的信息瓶颈;使用灵活的位置编码方案理解时间序列位置;引入片段长度随机化技术增强对不同节奏任务的适应性 [6] 实验验证与性能表现 - 在展物体导航任务中,Memo性能优于需要完整上下文访问的Transformer基线模型,且使用的上下文标记数量减少了8倍 [9] - 在Dark-Key-To-Door任务中,Memo能够稳定记住钥匙和门的位置并持续完成任务,而全上下文Transformer模型在3500万到4000万步左右出现明显性能下降 [11] - Memo在超过训练时见过的序列长度后仍保持强大推理能力,传统Transformer模型则表现出明显性能下降 [9] 关键发现与技术洞察 - 记忆累积机制显著优于仅保留最新记忆的循环模型,记忆累积为梯度回传提供了类似“残差连接”的路径,使模型能更有效地优化早期记忆表示 [14] - 长程梯度传播不可或缺,限制梯度仅在短期记忆间传播时模型性能大幅下降,表明模型必须能够调整所有记忆表示无论其生成时间 [17] - 摘要长度需适中,生成过多摘要标记反而损害性能,研究中适中的摘要长度(32个标记)在信息压缩与保留之间取得最佳平衡 [17] 应用前景与未来方向 - 记忆机制具有广泛应用前景,包括长期自主导航机器人、需要理解长期用户偏好的个性化系统、需要跟踪多目标和约束的战略决策系统 [18] - Memo展示了一种可能的范式转变,从让模型处理所有信息转向让模型学会自主管理其注意力与记忆 [18] - 未来研究方向包括让记忆机制更加自适应和可解释、在不同任务间迁移和共享记忆、平衡记忆的稳定性和灵活性 [18]