Workflow
大小脑协同
icon
搜索文档
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 19:33
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统多为"小脑"模型,缺乏长期规划与记忆管理能力 [7] - 提出RoboCerebra基准,专注于评估大小脑协同能力,包含长时序(平均2,972步)、多扰动、强记忆约束的任务场景 [8] - 配套发布Hierarchical Planning & Execution (HPE)框架,实现大脑VLM与小脑VLA的高效协同 [22] 数据集构建 - 数据生成采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重验证后人工标注 [13] - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 引入六类代表性子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 评测体系 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 采用锚点同步机制确保不同方法在子计划切换上的时序一致性 [21] - 在Memory任务中新增探索成功率、探索效率、决策准确率等细分指标 [32] 实验发现 - 层次化框架在Memory Execution场景提升幅度超70%,验证协同机制有效性 [26] - GPT-4o表现最优,平均成功率16.04%,但较人工最优计划仍有9%差距 [28][29] - 当前VLM在探索阶段成功率可达80%,但执行阶段决策准确率仅30%,显示记忆保持能力不足 [31] 技术框架 - HPE框架实现认知层与执行层解耦:VLM-Planner低频处理观测生成子目标,VLA-Controller高频执行动作 [24] - 通过共享Memory Bank实现状态共享与自适应replanning [24] - 支持多模态大模型接入,包括GPT-4o、Qwen2.5-VL、LLaVA-Next-Video等 [24]
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 15:48
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统仅依赖"小脑"模型难以胜任家庭级复合操作,需要"大脑"VLM进行长期规划、记忆管理与自我反思 [7] - 现有基准平均任务长度不足500步,缺乏对大小脑协作闭环能力的考察,模型难以应对遮挡、跌落或目标迁移等场景 [8] - 提出RoboCerebra基准,面向长时序、多扰动、强记忆约束的任务,配套发布Hierarchical Planning & Execution (HPE)框架 [8][10] RoboCerebra数据集 - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 任务平均长度2,972.4步,是现有长时序数据集的6倍,最长超3,500步 [13][18] - 涵盖饮品准备、物品归置、餐具整理等家庭场景,定义12种离散动作类别,10%任务包含五类以上动作 [17][18] - 引入六类子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 数据生成流程 - 采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重闭环验证 [13][17] - 符号推理器检查前置与后置条件,GPT-4o检查场景合理性,失败则重新生成 [17] - 人类专家录制400小时标准操作轨迹,独立标注团队进行200小时人工质检 [17] 评测协议 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 预设"锚点"同步机制确保不同方法在子计划执行时序对齐 [21][26] - 成功率基于自动化谓词检测,计划匹配精度评估高层符号计划一致性 [21] Hierarchical Planning & Execution框架 - 高层VLM-Planner低频率处理环境观测生成子目标序列,低层VLA-Controller高频率执行动作指令 [22][26] - 通过Memory Bank共享任务状态与中间子目标,实现自适应replanning [22][26] - 在Memory Execution场景中任务成功率提升幅度超过70% [27] 实验结果 - GPT-4o在规划准确率、任务成功率和计划效率上全面领先,平均成功率16.04% [28][29][30] - 在Memory Exploration阶段,GPT-4o探索成功率80%,探索效率0.32,显著优于Qwen2.5-VL [31] - 在Memory Execution阶段,GPT-4o决策准确率30%,优于Qwen2.5-VL的10% [31]
人形机器人系列(九):从Components到Functions,看手眼协作、大小脑协同的投资机会
长江证券· 2025-05-06 22:58
报告行业投资评级 - 看好,维持 [2] 报告的核心观点 - 人形机器人行业演进到第三年,国内外产业化进展加快,本体厂商、零部件企业多元化特征显著 [107] - 政策催化下,国内人形机器人发展会持续超预期,但在大小脑等功能性部件环节,国内外均还在探索、发展阶段 [107] - 当前人形机器人下游应用聚焦更泛化的通用场景,对大小脑等功能部件提出更多要求,国内厂商要跑出应用落地,需重点关注功能性部件发展 [107] - 建议重点关注在灵巧手本体制造 + 运控、机器人本体运控及提供人形机器人视觉解决方案的企业 [107] 各目录总结 人形机器人产业快速推进,仍存在应用痛点 - 特斯拉引领下,人形机器人产业化落地加快,市场批量化应用预期提振,对零部件量产关注度提升,但核心零部件批量化加工制造工艺存在瓶颈 [11][13] - 国内人形机器人进展快,产品形态多元化,有双足 + 纯旋转关节、双足 + 直线关节 + 旋转关节、双足 + 轮式、轮式等多种形态 [14][20] - 中央和地方政府积极推动人形机器人产业化发展,政策、配套产业基金、“产学研” 机构形成相对完整且成熟的模式 [23] - 截至 2024 年 11 月,国内外通用人形机器人整机商业公司约 150 家,国内超过 80 家,各本体厂商有不同产品进展和应用场景 [24] - 近三年,更多厂商加入人形机器人核心零部件制造,参与厂商持续扩容,部分零部件具备批量化制造能力,企业积极投建产能 [26] - 国内人形机器人发展会持续超预期,硬件供应链优势明显,应用落地积极,但要跑出更多应用能力,需关注功能性部件发展 [29][33] - 当前人形机器人量产应用预期不仅体现在动作上,还在于完成复杂任务的能力,2025 年主要需求集中在工业工厂、科研、商业展示等场景 [34][40] - 北京亦庄马拉松显示国内人形机器人厂商运动有较大分化,大小脑等功能性部件的稀缺性、重要性及能力验证需得到重视 [44] Functions 仍有瓶颈约束,视觉 + 运控 + 手眼协同为重要细分架构 大小脑:从强化学习、模仿学习到大模型实现人形机器人泛化能力 - 人形机器人现有的大小脑能力实现泛化能力仍有较大瓶颈,运动控制和泛化能力实现是复杂的系统性工程,壁垒高 [49] - 基于学习的强化学习和模仿学习是实现能力泛化的重要路径,但各有优缺点 [55] - 基于大模型的 VLM 方案是目前人形机器人的主流方案,分层架构(VLA)也有应用,但对数据质量和硬件要求较高 [60] - 目前主流机器人大模型偏向任务理解和拆分,对机器人运动控制涉及较少,智元机器人对具身智能技术演进路线进行了 G1 - G5 的划分,目前产业进展处于 G2 - G3 水平 [63] 人形视觉 - 视觉助力机器人实现感知与测量功能,需解决适应性难题,视觉指令能传达更精确的时空信息,有助于提升多步骤任务准确性 [67][75] - 人形机器人的 3D 视觉技术路线围绕 “获取 3D 信息” 和 “处理 3D 数据” 展开,不同技术有不同原理、优劣势和适用场景 [77] - 不同应用领域或场景对 3D 视觉的性能要求不同,奥比中光在中国服务机器人 3D 视觉传感器领域市占率超过 70%,领跑全球 3D 视觉感知市场 [83][89] 手眼协同 - 人形机器人/协作机器人行业发展带动灵巧手需求提升,灵巧手厂商持续扩容,产品在多方面存在差异 [92] - 灵巧手本体厂商可提供指令集或工具箱实现基本操作和典型手势,操作对象多样化,需实现泛化的动作策略 [97][103] - 手眼协同可优化定向抓取策略,提升成功率,人形机器人上肢操作功能核心为灵巧手的手眼协同,厂商需落地该能力形成竞争实力 [104][106]