大小脑协同推理

搜索文档
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 19:33
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统多为"小脑"模型,缺乏长期规划与记忆管理能力 [7] - 提出RoboCerebra基准,专注于评估大小脑协同能力,包含长时序(平均2,972步)、多扰动、强记忆约束的任务场景 [8] - 配套发布Hierarchical Planning & Execution (HPE)框架,实现大脑VLM与小脑VLA的高效协同 [22] 数据集构建 - 数据生成采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重验证后人工标注 [13] - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 引入六类代表性子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 评测体系 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 采用锚点同步机制确保不同方法在子计划切换上的时序一致性 [21] - 在Memory任务中新增探索成功率、探索效率、决策准确率等细分指标 [32] 实验发现 - 层次化框架在Memory Execution场景提升幅度超70%,验证协同机制有效性 [26] - GPT-4o表现最优,平均成功率16.04%,但较人工最优计划仍有9%差距 [28][29] - 当前VLM在探索阶段成功率可达80%,但执行阶段决策准确率仅30%,显示记忆保持能力不足 [31] 技术框架 - HPE框架实现认知层与执行层解耦:VLM-Planner低频处理观测生成子目标,VLA-Controller高频执行动作 [24] - 通过共享Memory Bank实现状态共享与自适应replanning [24] - 支持多模态大模型接入,包括GPT-4o、Qwen2.5-VL、LLaVA-Next-Video等 [24]
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 15:48
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统仅依赖"小脑"模型难以胜任家庭级复合操作,需要"大脑"VLM进行长期规划、记忆管理与自我反思 [7] - 现有基准平均任务长度不足500步,缺乏对大小脑协作闭环能力的考察,模型难以应对遮挡、跌落或目标迁移等场景 [8] - 提出RoboCerebra基准,面向长时序、多扰动、强记忆约束的任务,配套发布Hierarchical Planning & Execution (HPE)框架 [8][10] RoboCerebra数据集 - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 任务平均长度2,972.4步,是现有长时序数据集的6倍,最长超3,500步 [13][18] - 涵盖饮品准备、物品归置、餐具整理等家庭场景,定义12种离散动作类别,10%任务包含五类以上动作 [17][18] - 引入六类子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 数据生成流程 - 采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重闭环验证 [13][17] - 符号推理器检查前置与后置条件,GPT-4o检查场景合理性,失败则重新生成 [17] - 人类专家录制400小时标准操作轨迹,独立标注团队进行200小时人工质检 [17] 评测协议 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 预设"锚点"同步机制确保不同方法在子计划执行时序对齐 [21][26] - 成功率基于自动化谓词检测,计划匹配精度评估高层符号计划一致性 [21] Hierarchical Planning & Execution框架 - 高层VLM-Planner低频率处理环境观测生成子目标序列,低层VLA-Controller高频率执行动作指令 [22][26] - 通过Memory Bank共享任务状态与中间子目标,实现自适应replanning [22][26] - 在Memory Execution场景中任务成功率提升幅度超过70% [27] 实验结果 - GPT-4o在规划准确率、任务成功率和计划效率上全面领先,平均成功率16.04% [28][29][30] - 在Memory Exploration阶段,GPT-4o探索成功率80%,探索效率0.32,显著优于Qwen2.5-VL [31] - 在Memory Execution阶段,GPT-4o决策准确率30%,优于Qwen2.5-VL的10% [31]