可验证奖励的强化学习（RLVR）

搜索文档

机器之心· 2025-10-25 13:14

文章核心观点 - VLA-R1是一个“先推理、后执行”的视觉-语言-行动基础模型，旨在解决机器人在复杂场景下因缺乏显式推理而易出错的问题 [4] - 该模型通过结合链式思维监督与可验证奖励的强化学习，同时优化推理质量和执行正确性 [4] - 模型在域内、域外、仿真及真实机器人实验中均表现出色，显示出强大的泛化能力和执行准确性 [17][18][24] VLA-R1模型概述 - VLA-R1采用两阶段训练策略：先用显式链式思维监督进行有教师的指令微调，再用可验证奖励进行后训练强化 [6][8] - 推理输出采用固定结构（`<think>…</think>` + `<output>…</output>`），确保可读性和可查错性 [8] - 项目论文和主页已公开，便于行业参考与研究 [10] 关键技术创新 - 引入三类“可验证奖励”：空间对齐奖励（GIoU）用于加速区域对齐与学习稳定性；轨迹一致性奖励（ALHF）综合位置、角度与段长尺度惩罚不合理轨迹；输出格式奖励强制结构化输出 [11] - 开发了VLA-CoT数据引擎与VLA-CoT-13K数据集，包含13K条与视觉/动作严格对齐的链式思维标注，为监督微调提供高质量信号 [12][13] 实验性能评估 - 在域内测试中，VLA-R1的可供性IoU达到36.51，比强基线ManipLVM-R1提升17.78%；轨迹平均误差为91.74，相对基线降低17.25% [18][22] - 在域外测试中，模型在UMD数据集上可供性IoU为33.96，在VAIT子集上轨迹平均误差为93.90，展现稳健泛化能力 [18][23] - 真实机器人实验中，在四个复杂餐桌场景下，可供性感知成功率为62.5%，轨迹执行成功率为75%，在颜色相近、遮挡等干扰下仍保持空间一致性 [24][26] - 跨平台仿真测试中，在Piper和UR5机械臂上，可供性成功率分别为60%和50%，轨迹成功率分别为80%和60%，显示跨平台泛化潜力 [27][29] 方法有效性验证 - 消融实验表明，仅使用链式思维（无强化学习）可将IoU从23.74提升至28.37；结合链式思维与强化学习后，IoU进一步升至36.51，轨迹误差显著改善 [30] - 实验证明“先学会想，再用奖励把想法炼成动作”是提升机器人任务性能的有效路径 [30] 行业应用前景 - 适用于家居拾放/收纳等日常操控，能在多物体、光照不均及遮挡环境下稳定完成“找-拿-放”闭环，典型场景包括餐具整理、物品归类等 [35] - 在仓拣/轻工装配场景中，可明确解析“部件-工具-容器”关系，生成安全顺滑轨迹，减少误抓误放，尤其适用于重复件、套件分选 [36] - 作为教学/评测平台，其结构化输出便于检查中间步骤，配合标准化指标，可用于课程竞赛基线模型，助力行业人才培养与技术迭代 [36]

Vision-Language-Action

链式思维（CoT）监督

可验证奖励的强化学习（RLVR）

Artificial Intelligence

VLA-R1

Vision-Language-Action

链式思维（CoT）监督

可验证奖励的强化学习（RLVR）

Artificial Intelligence

VLA-R1

监督学习未死，一题训练五小时起飞！华人学者新方法20倍训练效率释放大模型推理能力

量子位· 2025-08-04 15:00

大模型推理能力研究进展 - 可验证奖励的强化学习（RLVR）技术取得突破，尤其是"一题强化学习"在多个任务中表现亮眼[1] - RL训练面临资源成本高（上百小时A100GPU）和训练不稳定的现实难题[2] - 传统监督式微调（SFT）在低数据量下易过拟合，效果难以保证[2] One-Shot CFT技术原理 - 滑铁卢大学TIGER Lab提出One-Shot Critique Fine-Tuning新方法，通过"逐步分析判断答案好坏"激发LLM推理能力[3] - 方法流程：选取代表性任务→多模型生成解答→强大模型点评→训练目标模型从点评中学习[4] - 仅需一题数据+多个解答+多个点评即可完成微调，训练仅需约5个GPU小时[5] 实验效果验证 - 在数学任务上，Qwen2.5-Math-7B经CFT微调后准确率提升+15%，超越使用4万多个样本的全监督微调模型[9] - Qwen2.5-Math-7B在MATH-500等基准测试中平均提升+14.9分，最高单任务提升+23.1分[9] - 在BBEH逻辑推理任务中获得+10~16%准确率增幅，展现跨任务迁移能力[10] - 效果对具体任务和种子选择不敏感，具有良好的稳定性和复现性[11] 技术优势分析 - 批判性学习：理解"答案为何正确或错误"，学习信号更具深度[12] - 多视角输入：一个问题模拟多种推理路径与错误类型，接近人类学习方式[12] - 强泛化性：点评语言包含通用逻辑判断规则，更易迁移至新任务[12] - 更换问题、模型、点评风格时，提升幅度保持稳定[13] 应用前景 - 相比RL方法大幅降低资源需求（5 GPU小时 vs 上百小时）[14] - 为个人研究者、资源有限实验室和初创团队提供高性价比解决方案[15] - 全流程开源（训练脚本、模型参数、数据集等），极大降低复现门槛[17]

大模型推理能力

One-Shot Critique Fine-Tuning（One-Shot CFT）

One-Shot Critique Fine-Tuning（One-Shot CFT）