Workflow
MemoryVLA
icon
搜索文档
AI Day直播 | MemoryVLA:助力长时序机器人操作任务
自动驾驶之心· 2025-09-03 11:19
文章核心观点 - 现有视觉-语言-动作模型在长周期时序依赖任务中表现不佳 主要依赖当前观测而忽略历史时序信息 [2][7] - 受人类记忆机制启发提出MemoryVLA框架 通过工作记忆和长期记忆系统提升机器人操作性能 [3][7] - 该框架包含感知-认知记忆库和记忆条件化扩散动作专家 能够自适应融合历史信息生成时序感知动作序列 [3] 技术方案细节 - 预训练VLM将观测编码为感知token和认知token 分别形成工作记忆和长期记忆 [3] - 感知-认知记忆库存储低层级细节和高层级语义信息 并通过合并冗余实现记忆更新 [3] - 工作记忆从记忆库检索决策相关条目 与当前token融合后生成动作序列 [3] 应用场景与价值 - 专门针对长周期机器人操作任务设计 解决非马尔可夫性任务中的时序依赖问题 [2][3] - 通过模拟人类海马体系统和工作记忆机制 提升模型在复杂操作任务中的表现 [3][7] 研究背景与进展 - 论文已发表于arXiv平台 编号2508.19236 项目主页同步开放 [4] - 研究成果由清华大学自动化系团队开发 计划通过直播形式进行技术分享 [4][7]