Workflow
RoboMME benchmark
icon
搜索文档
密歇根、斯坦福、Figure AI 联合牵头!机器人记忆基准 RoboMME 重磅发布!
机器人大讲堂· 2026-03-15 17:06
RoboMME基准的核心创新与意义 - RoboMME benchmark首次将机器人记忆划分为时间、空间、物体、程序四大维度,通过16个细分任务和770k高质量训练时序,为记忆增强型机器人策略提供了统一的评估标准 [3] - 该基准的核心创新在于所有任务都被设计为非马尔可夫过程,强制机器人调用历史信息,解决了传统评估中机器人仅通过即时感知就能完成任务、无法触发真正历史依赖推理的问题 [4][5] - RoboMME构建了包含1600个演示样本的数据集,单个任务的执行步数从几百到一千多不等,充分模拟了真实场景中的长 horizon 需求 [10] 机器人记忆的四大维度与任务设计 - **时间记忆**聚焦事件计数与序列排序,例如BinFill任务要求机器人将指定数量的立方体放入不透明箱子,必须通过记忆追踪已放置的数量,StopCube任务则考验在移动立方体第2-5次经过目标时按下按钮的精准时序计数能力 [8] - **空间记忆**侧重遮挡与场景变化下的位置追踪,例如VideoUnmaskSwap任务要求机器人仅依靠对视频中空间关系的记忆,在容器交换位置后找出隐藏目标 [8] - **物体记忆**关注跨时间的物体身份识别,例如PickHighlight任务要求机器人在无高亮提示后准确拾取之前记住的目标物体,VideoRepick任务则要求机器人从视频中学习特定物体特征并在混合后仍能重复拾取 [8] - **程序记忆**负责存储和复现动作模式,例如PatternLock任务要求机器人观看演示视频后精准复现相同的移动轨迹路径顺序,InsertPeg任务要求记住拾取钉子的特定端部和插入方向 [9] 不同记忆增强型模型的性能对比 - 研究团队基于RoboMME构建了14种记忆增强型VLA模型进行对比,均基于π₀.₅骨干网络,分别采用符号、感知、循环三种记忆表征 [12] - **感知记忆模型**(如FrameSamp+Modul组合)整体表现最佳,成功率达到44.51%,在PatternLock等动作复现任务中优势明显,成功率高达53.56% [13] - **符号记忆模型**在采用QwenVL生成的grounded subgoals时,在BinFill等计数任务中表现突出,成功率达到72.08%,但在StopCube等时间敏感型任务中几乎失效,成功率接近0 [15] - **循环记忆模型**(如TTT或RMT)表现最差,整体成功率仅在18%-22%之间,研究人员分析这可能是因为π₀.₅的浅层循环结构导致训练不稳定 [14] - 在三种记忆整合机制中,memory-as-modulator(记忆作为调制器)表现最为均衡,而memory-as-expert由于参数规模扩大和训练难度增加,并未带来显著性能提升 [16] 模型效率与真实世界验证 - 不同记忆表征的计算成本差异显著:依赖外部VLM生成子目标的符号记忆模型,计算量是基础π₀.₅的3倍;MemER模型计算量更是达到5倍 [17] - 感知记忆模型展现出更优的效率-性能平衡,FrameSamp+Modul在记忆预算从64增加到512 tokens的过程中成功率稳步提升,而计算量仅适度增加 [17] - 真实世界实验验证了仿真结论:在对应BinFill的PutFruits任务中,符号记忆模型成功率达到90%,擅长计数;而在模仿轨迹的DrawPattern任务中,感知记忆模型成功率80%,远超前两者 [18] 人类表现与机器差距 - 人类通过VideoQA方式参与实验,由oracle planner负责低level执行,最终达到90.5%的整体成功率,但人类在长horizon的PatternLock任务和时间敏感的StopCube任务中仍会出现错误 [19] - 人类与最优模型(FrameSamp+Modul,成功率44.51%)的差距主要体现在三个方面:对模糊信息的处理能力、记忆的泛化性以及错误恢复能力 [21] 行业影响与未来方向 - RoboMME的价值不仅在于评估,更在于为实际开发提供指导,例如工业机器人可优先采用感知记忆提升装配精度,服务机器人可结合符号记忆优化任务规划 [21] - 未来研究方向包括将基准扩展到移动操作任务,引入更多VLA骨干网络,以及结合符号记忆的高-level推理优势和感知记忆的低-level精准性,以实现更强大的记忆增强型机器人 [21]