可验证奖励的强化学习(RLVR)
搜索文档
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 16:59
文章转载自「赛博禅心」 Andrej Karpathy 在 X 上更新了一篇博客文章,回顾了 2025 年大模型发展。 在文章中,Karpathy 提到,2025 年,是 LLM 令人兴奋的一年。 LLM 正在作为一种全新的智能形态浮现,它们同时比我们预想的聪明得多,也比我们预想的蠢得多。 即便在当前的能力水平下,整个行业也远未实现其 10% 的潜力。 超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 可验证奖励的强化学习(RLVR), 与此同时,有太多的想法值得去尝试,从概念上看这个领域依然广阔开放。 正如我今年早些时候 在 Dwarkesh 播客中提到的 ,相信我们将继续见证快速而持续的进步,但同时仍有大量工作要做, 系好安全带。 以下是我个人认为最值得关注的几个「范式转变」,这些变化重塑了整个行业格局,也在概念上给我留下了深刻印象。 TLDR: ⬆️关注 Founder Park,最及时最干货的创业分享 成为新的训练主力 2025 年,可验证奖励的强化学习(RLVR)成为 LLM 训练的新主力环节; ...
让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界
机器之心· 2025-10-25 13:14
文章核心观点 - VLA-R1是一个“先推理、后执行”的视觉-语言-行动基础模型,旨在解决机器人在复杂场景下因缺乏显式推理而易出错的问题 [4] - 该模型通过结合链式思维监督与可验证奖励的强化学习,同时优化推理质量和执行正确性 [4] - 模型在域内、域外、仿真及真实机器人实验中均表现出色,显示出强大的泛化能力和执行准确性 [17][18][24] VLA-R1模型概述 - VLA-R1采用两阶段训练策略:先用显式链式思维监督进行有教师的指令微调,再用可验证奖励进行后训练强化 [6][8] - 推理输出采用固定结构(`<think>…</think>` + `<output>…</output>`),确保可读性和可查错性 [8] - 项目论文和主页已公开,便于行业参考与研究 [10] 关键技术创新 - 引入三类“可验证奖励”:空间对齐奖励(GIoU)用于加速区域对齐与学习稳定性;轨迹一致性奖励(ALHF)综合位置、角度与段长尺度惩罚不合理轨迹;输出格式奖励强制结构化输出 [11] - 开发了VLA-CoT数据引擎与VLA-CoT-13K数据集,包含13K条与视觉/动作严格对齐的链式思维标注,为监督微调提供高质量信号 [12][13] 实验性能评估 - 在域内测试中,VLA-R1的可供性IoU达到36.51,比强基线ManipLVM-R1提升17.78%;轨迹平均误差为91.74,相对基线降低17.25% [18][22] - 在域外测试中,模型在UMD数据集上可供性IoU为33.96,在VAIT子集上轨迹平均误差为93.90,展现稳健泛化能力 [18][23] - 真实机器人实验中,在四个复杂餐桌场景下,可供性感知成功率为62.5%,轨迹执行成功率为75%,在颜色相近、遮挡等干扰下仍保持空间一致性 [24][26] - 跨平台仿真测试中,在Piper和UR5机械臂上,可供性成功率分别为60%和50%,轨迹成功率分别为80%和60%,显示跨平台泛化潜力 [27][29] 方法有效性验证 - 消融实验表明,仅使用链式思维(无强化学习)可将IoU从23.74提升至28.37;结合链式思维与强化学习后,IoU进一步升至36.51,轨迹误差显著改善 [30] - 实验证明“先学会想,再用奖励把想法炼成动作”是提升机器人任务性能的有效路径 [30] 行业应用前景 - 适用于家居拾放/收纳等日常操控,能在多物体、光照不均及遮挡环境下稳定完成“找-拿-放”闭环,典型场景包括餐具整理、物品归类等 [35] - 在仓拣/轻工装配场景中,可明确解析“部件-工具-容器”关系,生成安全顺滑轨迹,减少误抓误放,尤其适用于重复件、套件分选 [36] - 作为教学/评测平台,其结构化输出便于检查中间步骤,配合标准化指标,可用于课程竞赛基线模型,助力行业人才培养与技术迭代 [36]
监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
量子位· 2025-08-04 15:00
大模型推理能力研究进展 - 可验证奖励的强化学习(RLVR)技术取得突破,尤其是"一题强化学习"在多个任务中表现亮眼[1] - RL训练面临资源成本高(上百小时A100GPU)和训练不稳定的现实难题[2] - 传统监督式微调(SFT)在低数据量下易过拟合,效果难以保证[2] One-Shot CFT技术原理 - 滑铁卢大学TIGER Lab提出One-Shot Critique Fine-Tuning新方法,通过"逐步分析判断答案好坏"激发LLM推理能力[3] - 方法流程:选取代表性任务→多模型生成解答→强大模型点评→训练目标模型从点评中学习[4] - 仅需一题数据+多个解答+多个点评即可完成微调,训练仅需约5个GPU小时[5] 实验效果验证 - 在数学任务上,Qwen2.5-Math-7B经CFT微调后准确率提升+15%,超越使用4万多个样本的全监督微调模型[9] - Qwen2.5-Math-7B在MATH-500等基准测试中平均提升+14.9分,最高单任务提升+23.1分[9] - 在BBEH逻辑推理任务中获得+10~16%准确率增幅,展现跨任务迁移能力[10] - 效果对具体任务和种子选择不敏感,具有良好的稳定性和复现性[11] 技术优势分析 - 批判性学习:理解"答案为何正确或错误",学习信号更具深度[12] - 多视角输入:一个问题模拟多种推理路径与错误类型,接近人类学习方式[12] - 强泛化性:点评语言包含通用逻辑判断规则,更易迁移至新任务[12] - 更换问题、模型、点评风格时,提升幅度保持稳定[13] 应用前景 - 相比RL方法大幅降低资源需求(5 GPU小时 vs 上百小时)[14] - 为个人研究者、资源有限实验室和初创团队提供高性价比解决方案[15] - 全流程开源(训练脚本、模型参数、数据集等),极大降低复现门槛[17]