Workflow
可验证奖励的强化学习(RLVR)
icon
搜索文档
让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界
机器之心· 2025-10-25 13:14
文章核心观点 - VLA-R1是一个“先推理、后执行”的视觉-语言-行动基础模型,旨在解决机器人在复杂场景下因缺乏显式推理而易出错的问题 [4] - 该模型通过结合链式思维监督与可验证奖励的强化学习,同时优化推理质量和执行正确性 [4] - 模型在域内、域外、仿真及真实机器人实验中均表现出色,显示出强大的泛化能力和执行准确性 [17][18][24] VLA-R1模型概述 - VLA-R1采用两阶段训练策略:先用显式链式思维监督进行有教师的指令微调,再用可验证奖励进行后训练强化 [6][8] - 推理输出采用固定结构(`<think>…</think>` + `<output>…</output>`),确保可读性和可查错性 [8] - 项目论文和主页已公开,便于行业参考与研究 [10] 关键技术创新 - 引入三类“可验证奖励”:空间对齐奖励(GIoU)用于加速区域对齐与学习稳定性;轨迹一致性奖励(ALHF)综合位置、角度与段长尺度惩罚不合理轨迹;输出格式奖励强制结构化输出 [11] - 开发了VLA-CoT数据引擎与VLA-CoT-13K数据集,包含13K条与视觉/动作严格对齐的链式思维标注,为监督微调提供高质量信号 [12][13] 实验性能评估 - 在域内测试中,VLA-R1的可供性IoU达到36.51,比强基线ManipLVM-R1提升17.78%;轨迹平均误差为91.74,相对基线降低17.25% [18][22] - 在域外测试中,模型在UMD数据集上可供性IoU为33.96,在VAIT子集上轨迹平均误差为93.90,展现稳健泛化能力 [18][23] - 真实机器人实验中,在四个复杂餐桌场景下,可供性感知成功率为62.5%,轨迹执行成功率为75%,在颜色相近、遮挡等干扰下仍保持空间一致性 [24][26] - 跨平台仿真测试中,在Piper和UR5机械臂上,可供性成功率分别为60%和50%,轨迹成功率分别为80%和60%,显示跨平台泛化潜力 [27][29] 方法有效性验证 - 消融实验表明,仅使用链式思维(无强化学习)可将IoU从23.74提升至28.37;结合链式思维与强化学习后,IoU进一步升至36.51,轨迹误差显著改善 [30] - 实验证明“先学会想,再用奖励把想法炼成动作”是提升机器人任务性能的有效路径 [30] 行业应用前景 - 适用于家居拾放/收纳等日常操控,能在多物体、光照不均及遮挡环境下稳定完成“找-拿-放”闭环,典型场景包括餐具整理、物品归类等 [35] - 在仓拣/轻工装配场景中,可明确解析“部件-工具-容器”关系,生成安全顺滑轨迹,减少误抓误放,尤其适用于重复件、套件分选 [36] - 作为教学/评测平台,其结构化输出便于检查中间步骤,配合标准化指标,可用于课程竞赛基线模型,助力行业人才培养与技术迭代 [36]
监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
量子位· 2025-08-04 15:00
大模型推理能力研究进展 - 可验证奖励的强化学习(RLVR)技术取得突破,尤其是"一题强化学习"在多个任务中表现亮眼[1] - RL训练面临资源成本高(上百小时A100GPU)和训练不稳定的现实难题[2] - 传统监督式微调(SFT)在低数据量下易过拟合,效果难以保证[2] One-Shot CFT技术原理 - 滑铁卢大学TIGER Lab提出One-Shot Critique Fine-Tuning新方法,通过"逐步分析判断答案好坏"激发LLM推理能力[3] - 方法流程:选取代表性任务→多模型生成解答→强大模型点评→训练目标模型从点评中学习[4] - 仅需一题数据+多个解答+多个点评即可完成微调,训练仅需约5个GPU小时[5] 实验效果验证 - 在数学任务上,Qwen2.5-Math-7B经CFT微调后准确率提升+15%,超越使用4万多个样本的全监督微调模型[9] - Qwen2.5-Math-7B在MATH-500等基准测试中平均提升+14.9分,最高单任务提升+23.1分[9] - 在BBEH逻辑推理任务中获得+10~16%准确率增幅,展现跨任务迁移能力[10] - 效果对具体任务和种子选择不敏感,具有良好的稳定性和复现性[11] 技术优势分析 - 批判性学习:理解"答案为何正确或错误",学习信号更具深度[12] - 多视角输入:一个问题模拟多种推理路径与错误类型,接近人类学习方式[12] - 强泛化性:点评语言包含通用逻辑判断规则,更易迁移至新任务[12] - 更换问题、模型、点评风格时,提升幅度保持稳定[13] 应用前景 - 相比RL方法大幅降低资源需求(5 GPU小时 vs 上百小时)[14] - 为个人研究者、资源有限实验室和初创团队提供高性价比解决方案[15] - 全流程开源(训练脚本、模型参数、数据集等),极大降低复现门槛[17]