Workflow
CMU团队等!机器人记忆新架构:物体中心状态建模,实现长时序操作!
具身智能之心·2025-11-18 08:46

研究背景与核心挑战 - 现实机器人操作任务的成功依赖于对象交互历史而非仅当前观测[5] - 现有视觉-语言-动作模型多遵循马尔可夫假设缺乏对象级记忆机制在重复操作视觉相似物体遮挡等场景中易失效[5] - 核心挑战集中在部分可观测性对象身份模糊和长时程时间依赖三方面[5] LIBERO-Mem基准套件 - 基准专为评估非马尔可夫场景下的对象级记忆能力设计涵盖短长时程任务与多维度记忆挑战[5] - 包含10类任务覆盖对象运动对象序列多对象关系多对象遮挡四种记忆维度[7][9] - 每个任务包含200-700帧120条轨迹支持子目标分解的细粒度性能评估[9] - 通过视觉相似物体引入身份模糊填补现有基准在非马尔可夫场景评估的空白[8] Embodied-SlotSSM模型架构 - 模型以对象槽为核心整合状态空间建模与关系推理实现高效时间序列记忆与动作预测[11] - 采用槽状态空间建模通过状态空间模型近似历史信息实现历史状态映射[13] - 核心机制包括瞬时记忆保障时间定位与一致性以及动作解码实现关系推理与上下文融合[14] - 通过槽注意力将视觉嵌入分解为离散对象槽并结合时序初始化保障对象身份跨时间传播[16] 实验结果与性能表现 - 在通用任务LIBERO-Goal中模型平均成功率达80.1%显著优于SlotVLA等基准模型[15][17] - 在非马尔可夫任务LIBERO-Mem中平均子目标完成率达14.8%远超传统模型的5.0%[23] - 在重复操作任务如3次放置碗中实现33.3%的完成率证明模型在长时程任务中的有效性[23] - 优势集中在多对象交互遮挡任务证明结构化记忆对复杂场景的适配性[19] 核心价值与行业意义 - 填补非马尔可夫机器人操作基准空白为记忆增强型模型提供标准化评估工具[24] - 验证对象中心记忆在复杂场景中的必要性为机器人从反应式操作向推理式操作转型提供新思路[24] - 时间窗口预测与关系推理机制提升动作预测稳健性为非马尔可夫场景提供可行解决方案[24]