北京大学最新!MobileVLA-R1:机械臂之外,移动机器人的VLA能力怎么样了?
具身智能之心·2025-11-30 11:03

文章核心观点 - 北京大学等团队推出的MobileVLA-R1模型,通过“结构化思维链推理+两阶段训练范式”,首次在四足机器人上实现了自然语言指令下的显式推理与连续控制,有效弥合了高层语义推理与底层动作控制之间的鸿沟,在导航和操作任务中性能领先[1] 当前行业痛点与解决方案 - 当前四足机器人视觉-语言-动作系统面临“推理-控制脱节”困境,具体表现为直接从语言映射到动作导致稳定性差、泛化能力弱,以及依赖隐式嵌入导致推理不可追溯、难以进行错误排查[2] - MobileVLA-R1的核心突破在于将“思维链推理”与“连续动作执行”解耦,通过结构化数据监督和强化学习,让机器人先推理再执行,兼顾可解释性与控制稳健性[2] 核心技术架构与数据集 - 模型核心设计基于“结构化CoT数据集 + 两阶段训练 + 多模态感知融合”三大模块[4] - 构建了首个面向四足机器人的大规模结构化思维链数据集MobileVLA-CoT,包含18K条episode级样本、78K条步骤级样本和38K条导航专用样本,覆盖导航与操作全场景[4] - 数据集基于R2R、RxR导航数据集和262K规模的QUARD四足机器人数据集,通过大模型生成并经过规则过滤与人工校验[4][5] - 采用分层VLA架构,包含“感知-推理-执行”三级,实现从多模态输入到连续控制的端到端映射[6] - 采用两阶段训练范式:先在MobileVLA-CoT数据集上进行监督微调,建立基础映射;再采用Group Relative Policy Optimization进行强化学习优化,设计了三重奖励函数[8] - 多模态感知前端融合RGB图像、深度图和点云数据,使用DepthAnything V2和Point Transformer v3编码器精准捕捉3D空间信息[8] - 推理模块基于LLaMA3-8B语言模型生成结构化输出,动作解码器将其转化为四足机器人的连续控制指令[8] 模型性能表现 - 在导航任务基准测试中,在R2R-CE和RxR-CE数据集上的成功率分别达到68.3%和71.5%,较现有方法平均提升5%,导航误差低至4.05,轨迹效率达65.2%[10] - 在四足控制任务中,在QUARD数据集的6项运动与操作任务中平均成功率达73%,硬难度任务成功率达44%,显著超越QUART、MoRE等基线模型[12][13] - 在Unitree Go2四足机器人上的真实世界测试显示,在复杂指令下的成功率高达86%-91%,导航误差低于1.23,能稳定完成多步连贯任务[16][18] - 消融实验证明,同时启用运动、动作、格式三重奖励函数时性能最优,移除任一奖励会导致成功率下降3%-10%[17] - 多模态感知消融实验表明,新增深度和点云编码器后,导航成功率提升5.8%[19][20] 技术意义与未来方向 - 该研究首次将思维链推理与强化学习融入四足机器人的VLA框架,打破了“要么可解释、要么稳执行”的行业困境[21] - 结构化CoT推理是弥合语义-控制鸿沟的关键,显式推理过程提升了指令落地的稳定性和决策可解释性[23] - 两阶段训练范式兼顾了“冷启动效率”与“优化上限”,实现协同效应[23] - 多模态融合提升了机器人在复杂空间中的泛化能力[23] - 未来方向包括扩展动作空间以支持更精细操作、通过模型蒸馏与量化降低8B参数主干的推理延迟以适应实时交互,以及探索自监督学习以减少对标注数据的依赖[23]