让机器人「不仅会想，还能准确去做」，VLA-R1把「推理+行动」带进真实世界

文章核心观点 - VLA-R1是一个“先推理、后执行”的视觉-语言-行动基础模型，旨在解决机器人在复杂场景下因缺乏显式推理而易出错的问题 [4] - 该模型通过结合链式思维监督与可验证奖励的强化学习，同时优化推理质量和执行正确性 [4] - 模型在域内、域外、仿真及真实机器人实验中均表现出色，显示出强大的泛化能力和执行准确性 [17][18][24] VLA-R1模型概述 - VLA-R1采用两阶段训练策略：先用显式链式思维监督进行有教师的指令微调，再用可验证奖励进行后训练强化 [6][8] - 推理输出采用固定结构（<think>…</think> + <output>…</output>），确保可读性和可查错性 [8] - 项目论文和主页已公开，便于行业参考与研究 [10] 关键技术创新 - 引入三类“可验证奖励”：空间对齐奖励（GIoU）用于加速区域对齐与学习稳定性；轨迹一致性奖励（ALHF）综合位置、角度与段长尺度惩罚不合理轨迹；输出格式奖励强制结构化输出 [11] - 开发了VLA-CoT数据引擎与VLA-CoT-13K数据集，包含13K条与视觉/动作严格对齐的链式思维标注，为监督微调提供高质量信号 [12][13] 实验性能评估 - 在域内测试中，VLA-R1的可供性IoU达到36.51，比强基线ManipLVM-R1提升17.78%；轨迹平均误差为91.74，相对基线降低17.25% [18][22] - 在域外测试中，模型在UMD数据集上可供性IoU为33.96，在VAIT子集上轨迹平均误差为93.90，展现稳健泛化能力 [18][23] - 真实机器人实验中，在四个复杂餐桌场景下，可供性感知成功率为62.5%，轨迹执行成功率为75%，在颜色相近、遮挡等干扰下仍保持空间一致性 [24][26] - 跨平台仿真测试中，在Piper和UR5机械臂上，可供性成功率分别为60%和50%，轨迹成功率分别为80%和60%，显示跨平台泛化潜力 [27][29] 方法有效性验证 - 消融实验表明，仅使用链式思维（无强化学习）可将IoU从23.74提升至28.37；结合链式思维与强化学习后，IoU进一步升至36.51，轨迹误差显著改善 [30] - 实验证明“先学会想，再用奖励把想法炼成动作”是提升机器人任务性能的有效路径 [30] 行业应用前景 - 适用于家居拾放/收纳等日常操控，能在多物体、光照不均及遮挡环境下稳定完成“找-拿-放”闭环，典型场景包括餐具整理、物品归类等 [35] - 在仓拣/轻工装配场景中，可明确解析“部件-工具-容器”关系，生成安全顺滑轨迹，减少误抓误放，尤其适用于重复件、套件分选 [36] - 作为教学/评测平台，其结构化输出便于检查中间步骤，配合标准化指标，可用于课程竞赛基线模型，助力行业人才培养与技术迭代 [36]