Workflow
大小脑协同推理
icon
搜索文档
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 19:33
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统多为"小脑"模型,缺乏长期规划与记忆管理能力 [7] - 提出RoboCerebra基准,专注于评估大小脑协同能力,包含长时序(平均2,972步)、多扰动、强记忆约束的任务场景 [8] - 配套发布Hierarchical Planning & Execution (HPE)框架,实现大脑VLM与小脑VLA的高效协同 [22] 数据集构建 - 数据生成采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重验证后人工标注 [13] - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 引入六类代表性子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 评测体系 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 采用锚点同步机制确保不同方法在子计划切换上的时序一致性 [21] - 在Memory任务中新增探索成功率、探索效率、决策准确率等细分指标 [32] 实验发现 - 层次化框架在Memory Execution场景提升幅度超70%,验证协同机制有效性 [26] - GPT-4o表现最优,平均成功率16.04%,但较人工最优计划仍有9%差距 [28][29] - 当前VLM在探索阶段成功率可达80%,但执行阶段决策准确率仅30%,显示记忆保持能力不足 [31] 技术框架 - HPE框架实现认知层与执行层解耦:VLM-Planner低频处理观测生成子目标,VLA-Controller高频执行动作 [24] - 通过共享Memory Bank实现状态共享与自适应replanning [24] - 支持多模态大模型接入,包括GPT-4o、Qwen2.5-VL、LLaVA-Next-Video等 [24]
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 15:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 SonghaoHan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Ideal Dynamic Memory Execution Memory Exploration Mix 1 问题背景与动机 近年来,视觉-语言模型(VLM)凭借对图像与文本的强大对齐能力,为机器人带来了"看图执行指令"的全 新范式。研究者只需给出一句自然语言命令,机械臂便能在仿真或真实桌面环境中完成抓取、移动、放置 等操作。这类系统通常以 VLA 等 "小脑" 模型的形式存在:直接把多模态观测映射到低层控制信号,强调 即时反应与传感-运动耦合。然而,随着任务场景从单步抓取扩展到家庭级复合操作,仅靠小脑反应已难以 胜任;机器人还需要 "大脑" VLM 进行长期规划、记忆管理与自我反思,并与小脑 Controller 高效协同。 现有公开基准的平均任务长度不足 500 步,也很少显式考察大小脑协作(Planner ...