Workflow
让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界
机器之心·2025-10-25 13:14

文章核心观点 - VLA-R1是一个“先推理、后执行”的视觉-语言-行动基础模型,旨在解决机器人在复杂场景下因缺乏显式推理而易出错的问题 [4] - 该模型通过结合链式思维监督与可验证奖励的强化学习,同时优化推理质量和执行正确性 [4] - 模型在域内、域外、仿真及真实机器人实验中均表现出色,显示出强大的泛化能力和执行准确性 [17][18][24] VLA-R1模型概述 - VLA-R1采用两阶段训练策略:先用显式链式思维监督进行有教师的指令微调,再用可验证奖励进行后训练强化 [6][8] - 推理输出采用固定结构(<think>…</think> + <output>…</output>),确保可读性和可查错性 [8] - 项目论文和主页已公开,便于行业参考与研究 [10] 关键技术创新 - 引入三类“可验证奖励”:空间对齐奖励(GIoU)用于加速区域对齐与学习稳定性;轨迹一致性奖励(ALHF)综合位置、角度与段长尺度惩罚不合理轨迹;输出格式奖励强制结构化输出 [11] - 开发了VLA-CoT数据引擎与VLA-CoT-13K数据集,包含13K条与视觉/动作严格对齐的链式思维标注,为监督微调提供高质量信号 [12][13] 实验性能评估 - 在域内测试中,VLA-R1的可供性IoU达到36.51,比强基线ManipLVM-R1提升17.78%;轨迹平均误差为91.74,相对基线降低17.25% [18][22] - 在域外测试中,模型在UMD数据集上可供性IoU为33.96,在VAIT子集上轨迹平均误差为93.90,展现稳健泛化能力 [18][23] - 真实机器人实验中,在四个复杂餐桌场景下,可供性感知成功率为62.5%,轨迹执行成功率为75%,在颜色相近、遮挡等干扰下仍保持空间一致性 [24][26] - 跨平台仿真测试中,在Piper和UR5机械臂上,可供性成功率分别为60%和50%,轨迹成功率分别为80%和60%,显示跨平台泛化潜力 [27][29] 方法有效性验证 - 消融实验表明,仅使用链式思维(无强化学习)可将IoU从23.74提升至28.37;结合链式思维与强化学习后,IoU进一步升至36.51,轨迹误差显著改善 [30] - 实验证明“先学会想,再用奖励把想法炼成动作”是提升机器人任务性能的有效路径 [30] 行业应用前景 - 适用于家居拾放/收纳等日常操控,能在多物体、光照不均及遮挡环境下稳定完成“找-拿-放”闭环,典型场景包括餐具整理、物品归类等 [35] - 在仓拣/轻工装配场景中,可明确解析“部件-工具-容器”关系,生成安全顺滑轨迹,减少误抓误放,尤其适用于重复件、套件分选 [36] - 作为教学/评测平台,其结构化输出便于检查中间步骤,配合标准化指标,可用于课程竞赛基线模型,助力行业人才培养与技术迭代 [36]