北航×新国立×上交发布RoboCerebra：长时序机器人操作推理的全新评测基准

核心观点 - 视觉-语言模型（VLM）为机器人带来"看图执行指令"的新范式，但现有系统仅依赖"小脑"模型难以胜任家庭级复合操作，需要"大脑"VLM进行长期规划、记忆管理与自我反思 [7] - 现有基准平均任务长度不足500步，缺乏对大小脑协作闭环能力的考察，模型难以应对遮挡、跌落或目标迁移等场景 [8] - 提出RoboCerebra基准，面向长时序、多扰动、强记忆约束的任务，配套发布Hierarchical Planning & Execution (HPE)框架 [8][10] RoboCerebra数据集 - 包含1,000条人工标注轨迹，覆盖100个任务变体，平均每条轨迹由9.1个原子动作构成，总步数达2,972步 [17][18] - 任务平均长度2,972.4步，是现有长时序数据集的6倍，最长超3,500步 [13][18] - 涵盖饮品准备、物品归置、餐具整理等家庭场景，定义12种离散动作类别，10%任务包含五类以上动作 [17][18] - 引入六类子任务：Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 数据生成流程 - 采用GPT自动生成高层任务并递归拆分子目标，经符号与视觉双重闭环验证 [13][17] - 符号推理器检查前置与后置条件，GPT-4o检查场景合理性，失败则重新生成 [17] - 人类专家录制400小时标准操作轨迹，独立标注团队进行200小时人工质检 [17] 评测协议 - 设计四维核心指标：任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 预设"锚点"同步机制确保不同方法在子计划执行时序对齐 [21][26] - 成功率基于自动化谓词检测，计划匹配精度评估高层符号计划一致性 [21] Hierarchical Planning & Execution框架 - 高层VLM-Planner低频率处理环境观测生成子目标序列，低层VLA-Controller高频率执行动作指令 [22][26] - 通过Memory Bank共享任务状态与中间子目标，实现自适应replanning [22][26] - 在Memory Execution场景中任务成功率提升幅度超过70% [27] 实验结果 - GPT-4o在规划准确率、任务成功率和计划效率上全面领先，平均成功率16.04% [28][29][30] - 在Memory Exploration阶段，GPT-4o探索成功率80%，探索效率0.32，显著优于Qwen2.5-VL [31] - 在Memory Execution阶段，GPT-4o决策准确率30%，优于Qwen2.5-VL的10% [31]