Workflow
强化学习(RL)
icon
搜索文档
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
量子位· 2025-10-20 11:46
模型演进与定位 - GPT-5可被视为o3模型的迭代版本,即o3.1,其思考过程与o3一脉相承[1][4][23] - o1模型是公司第一个正式的推理模型,更侧重于技术演示,擅长解决谜题而非作为实用产品[15][17][18] - o3模型代表了AI发展的结构性转变,是首个真正实用、能熟练使用工具并持久寻求答案的模型[19][20][22] - 公司未来的方向是构建能力更强、思考时间更长、能自主与多系统互动的模型,寻求下一个重大飞跃[4][24] 模型推理过程 - 模型的推理过程类似于人类思考,是寻找未知答案的过程,可能涉及计算、查找信息或自我学习[11] - 思维链是模型推理的具体表现,通过将模型的思维过程用人类语言口语化表述出来[12] - 模型在推理中花费的时间越长,结果往往会更好,但公司需在推理质量与用户等待时间之间寻求平衡[13][14] - 公司目前将高推理模型与低推理模型同时开放给用户,并将思考时长的选择权交还用户[14] 公司内部架构与文化 - 公司工作结构是自上而下与自下而上结合,整体专注于三到四个核心项目,研究人员在项目内享有自由[31][33] - 研究部门约600人,信息高度透明,公司认为研究受阻的风险远高于知识产权泄漏[33] - 公司能快速发布产品(一年内从o1到GPT-5)得益于良好的运营结构、巨大的发展势头及顶尖人才的高效产出[33] - 员工大量使用内部工具,例如ChatGPT和CodeX,有员工每月为ChatGPT支付200美元费用[9][34] 强化学习(RL)的战略意义 - 强化学习是公司多次转折的关键,语言模型是预训练和强化学习的结合,此为自2019年以来的研究核心[35][36] - 强化学习通过奖励和惩罚机制训练模型,关键在于策略(模型行为)和环境(交互式反馈)[37][38] - GPT-4最初在长回答中缺乏连贯性,是通过基于人类反馈的强化学习(RLHF)解决了该问题,从而创造了“ChatGPT时刻”[41][42][43] - 公司近期在编程竞赛中的优异表现,源于长期使用编程谜题作为测试平台来尝试强化学习想法[45][46] - 强化学习可应用于任何能评估结果并计算反馈信号的领域,但其规模化难度较高,过程精细复杂[47][48][49] 行业影响与外部贡献 - DeepSeek团队提出的GRPO(组相对策略优化)算法获得肯定,其开源推动了美国实验室更快地训练推理模型[7][51] 未来方向与AGI路径 - AI智能体化是大势所趋,由基础推理驱动的智能体允许模型长时间独立思考以解决编程、预订等复杂任务[53] - 模型对齐问题本质上是一个强化学习问题,旨在引导模型行为符合人类价值观,且该问题将随文明演进永无止境[54] - 通往AGI的道路上,预训练和强化学习二者缺一不可,公司反对“纯强化学习是唯一途径”的观点[56][57] - 公司相信目前走在正确的AGI道路上,未来的变化将是添加新的复杂组件,而非完全推翻现有架构[59]
过去一个月高强度RL的实践和思考 - 如何涨点?
自动驾驶之心· 2025-10-20 07:32
文章核心观点 - 强化学习在视觉语言模型上能带来显著性能提升,部分基准测试取得同规模模型1-2个点的整体涨幅,最高单项涨幅达8-10个点[2] - 强化学习的本质是提高采样效率,而非让基础模型学习新知识,其关键在于一套完整流程而非单一数据[7][8] - 实现有效强化学习需注重数据基础、算法选择和实验细节,通过做好多件小事而非追求单一突破来达成目标[2] 强化学习目标 - 在监督微调模型版本上取得1-2个点的整体性能提升[5] - 在特定基准测试上取得超过1-2点的涨幅,如数学、指令遵循、幻觉避免等领域[5] 强化学习整体思路 - 强化学习必须基于基础模型采样,使用其他模型回复作为好坏答案或试图用一份数据更新所有模型可能无法奏效[8] - 与监督微调后训练相比,监督微调最高可实现5-6个点的涨幅,而强化学习版本整体涨幅在1-2点左右[8] 视觉语言模型强化学习难点 - 算法层面需选择高效、上限高的强化学习算法,考验工程师判断能力[10] - 训练层面基础设施要求高,需对原始模型进行多次前向传播,训练效率挑战大[13] - 数据层面输入混合平衡要求高,不同任务数据比例需平衡,输出回复长度与算法相关度较高[13] 技术选型与实践 - 选择基础设施成本较低的DPO强化学习算法进行快速验证,该算法为离线策略算法[11] - DPO算法优点包括数据可离线生成、奖励评分可用多种模型实现、无需引入在线奖励模型[14] - DPO算法缺点在于训练后期数据无法反映模型效果,训练上限不如在线策略强化学习高[14] 数据组织策略 - 提示库构建需避免回复过短的提示,针对数学推理类任务构造能引导思维链回复的提示格式[15][19] - 数据混合需让不同任务数据比例平衡,实现所有指标同步提升而非有升有降[15] - 回复生成需满足差异较大且有明确对错的要求,确保接受和拒绝回复有明确好坏区分[16][20] 实验过程关键发现 - 直接使用真实答案作为接受回复或固定模型结果作为接受回复会导致训练快速饱和,无法提高采样效率[27] - 训练动态中奖励准确度不断增长往往意味着更好训练效果,但该值与基准测试无直接关联[28] - 回复过短会导致DPO训练崩溃,尽管准确度能直接反映正确比例,但训练效果会变差[28] 结论与展望 - 视觉语言模型强化学习在数据提示混合、数据生成和配对数据构建几个关键环节做对后一定能带来性能提升[24] - 后续将投入视觉语言模型的在线强化学习训练,面临更多未知挑战[24]
GPT-5 核心成员详解 RL:Pre-training 只有和 RL 结合才能走向 AGI
海外独角兽· 2025-10-18 20:03
文章核心观点 - 强化学习与预训练的结合是当前AI发展的核心路径,两者相互依存,共同推动模型能力的提升[16][50] - 推理能力是AI发展的关键里程碑,其本质是模型寻找未知答案的思考过程,而不仅仅是简单的搜索[7][9] - 公司通过持续迭代其模型架构和训练方法,实现了从技术展示到实用产品的跨越,并确立了在行业中的领先地位[13][15][62] 强化学习与预训练的结合 - 预训练是基础,为强化学习提供必要的知识基础,没有预训练,强化学习难以奏效[16][22] - 强化学习必须建立在强大的预训练之上,而预训练同样需要强化学习的强化与闭环才能成功[3][50] - 公司自2019年就确立了“在大量数据上训练大型生成模型,然后进行强化学习”的战略路线,并延续至今[17] - 强化学习被比喻为训练狗的过程,通过奖励期望行为和惩罚不期望行为来优化模型策略[19][20] - 与相对标准化的预训练相比,强化学习更为复杂和精细,涉及更多动态组件,大规模扩展时挑战更大[33] 推理模型的技术演进 - 推理被定义为“找到一个未知答案的过程”,这比简单的“回答问题”需要更长的时间和更复杂的工作[7][9] - 思维链是模型将内部思考过程以人类语言和概念表达出来的能力,本质上是文字编码的思考过程[10][11] - 公司在推理模型的开发上遵循逐步扩展的训练实验路径,从展示能力的o1模型,到真正有用的o3模型,再到被视为o3迭代的GPT-5模型[13][15] - 模型思考时间的权衡由用户体验驱动,公司在产品层面提供不同模式让用户在输出质量和等待时间之间进行选择[12] - 编程能力是推理模型能力的一个自然副产品,研究人员常用编程问题测试新想法,使模型在该领域表现突出[43] 行业竞争与开源影响 - 公司在发布o1模型后,对许多研究实验室产生了意外冲击,而开源模型如DeepSeek的GRPO算法为其他实验室提供了快速跟进的操作说明书[30][32] - 数据标注行业必须不断自我更新,因为AI能力快速提升,几个月前需要人工标注的任务可能很快就能由AI自动完成[27] - 行业内的研究组织方式趋向于集中资源推进少数核心项目,而非进行大量分散的小赌注,以确保研究深度和效率[60] 智能体与未来发展方向 - 智能体系统的核心是让模型能够长时间自主思考,与更多系统和信息源交互,以完成复杂的长任务清单[34][35] - 目前大多数针对语言模型的强化学习仍是在线训练,但在与真实用户隔离的环境中进行,实时在线学习因安全考虑尚未大规模应用[36][38] - 对齐问题在某种程度上被视为一个强化学习问题,需要通过引导模型产生特定行为来实现,但这是一个持续演变的挑战[38][39] - 通向AGI的终极问题在于模型何时能在不依赖大量外部干预和人类修正的情况下实现自我改进[47] - 未来的发展路径更可能是在现有体系上持续叠加新方法,逐步淘汰旧元素,而非彻底推翻重来的转向[52]
聊聊 AI Agent 到底有多大创新?
自动驾驶之心· 2025-10-18 12:00
AI Agent技术当前面临的挑战 - 当前AI Agent在用户体验上与传统task bot相比并无显著提升,甚至更差[1] - Planning阶段耗时巨大,工具增多后模型准确率下降,使用旗舰模型进一步增加延时[2] - Planning质量不高,模型构建的复杂工作流可用率远低于人类水平,简单工作流使用判别式小模型性能更好[2] - Reflection策略容易陷入自我内耗和死循环[3] Planning速度问题的本质与解决方案 - 核心问题是工具发现和参数对齐成本被低估,从编译时确定的工具编排变为运行时动态选择,搜索空间随工具数量指数级膨胀[5] - 解决方案包括工具层缩小范围分层治理,先用意图分类器将请求路由到具体域,每个域只暴露5-10个核心工具[5] - 将串行改为DAG并行执行,LLMCompiler支持将调用计划编译成有向无环图,并行化可使链路耗时缩短20%[6] - 在项目开始节点增加路由策略,简单任务路由给SLM或专用执行器,复杂规划才使用强推理模型[6] Planning质量问题的本质与提升方案 - 本质原因是模型生成的文字描述计划缺乏可执行性和全局约束,传统workflow有明确的分支条件和异常处理[8] - HiPlan方案将计划拆分为里程碑和局部提示两层,高层管战略目标,低层负责战术细节,里程碑可离线积累复用[8] - Routine实践提供结构化计划框架,强制模型输出符合语法的计划,可将企业场景工具调用准确率提升平均20多个百分点[10] - 搜索式规划如LATS引入MCTS,展开多条路径用Verifier评分选最优,HyperTree和Graph-of-Thoughts支持非树形图结构[12] - 基于强化学习的多轮训练可有效提升agent长程任务性能,例如RAGEN、LMRL-Gym等研究实现明显指标提升[14] Reflection死循环问题的根源与修复方法 - 根本原因是缺少细粒度可计算信号和明确停机条件,模型反思仅靠主观判断易强化错误假设[15] - UFO研究使用最简单的一元反馈如Try again进行多轮RL,不需要详细错误诊断即可学会自我改进[17] - Tool-Reflection-Bench将错误修复过程变为明确可控动作,模型学会基于证据诊断错误并提出可执行后续调用[18] - 工程层面可设置max_rounds硬性上限、no-progress-k连续无改进则停、state-hash去重、cost-budget预算终止等机制[20] AI Agent技术发展趋势与价值 - Agent现阶段问题需结合强化学习,构建多轮交互特定环境,让模型学到稳定推理执行能力[20] - 端到端RL将整个Agent视为策略网络,直接从环境反馈学习,涌现规划、工具使用、反思等能力,是未来技术趋势[20] - AI Agent是LLM在现实场景业务落地最有价值的技术方向,Agent能力正逐步内化为模型能力[21] - RL契合Agent在垂直领域现实环境的问题模拟,工具高度封装化和运行环境可迁移性使sim2real难题不再成为掣肘[21] - 通过RL训练的Agent模型具备很高实用价值且价值持续扩大,同时降低了应用下限并提升了能力上限[21]
NeurIPS 2025|清华团队分析RL将如何提升VLA泛化性
具身智能之心· 2025-10-15 12:00
研究背景与核心观点 - 视觉-语言-动作大模型在具身智能领域潜力巨大,但当前主流的有监督微调方法在面对新环境或任务时泛化能力有限 [1] - 清华大学研究团队首次系统性揭示了强化学习在提升VLA模型泛化能力上的独特优势,并提出了全面的评测基准和高效训练方法 [1][3] - 强化学习微调VLA模型能显著提升语义理解和任务执行的鲁棒性,在视觉变化场景下保持与有监督微调相当的表现 [3] 研究方法与模型基础 - 研究采用目前最先进的开源OpenVLA模型为基础,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂 [4][6] - 团队构建了涵盖视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在泛化性上的表现 [3][19] 强化学习方法比较 - 测试了三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [8] - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [15] - PPO的优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态的非平稳性可能破坏了GRPO的优势估计稳定性 [15] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [15] 高效PPO训练方案 - 提出共享Actor-Critic架构设计,让Actor和Critic共享同一个主干网络,仅添加轻量级MLP作为价值头,使显存占用减少45%,训练速度提升35% [12] - 使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需的环境交互次数 [14] - 将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [14] 有监督微调与强化学习性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和 [17] - 强化学习在训练分布内任务性能与有监督微调相当,但在分布外任务上取得了42.6%的性能提升,展现出更强的泛化性 [18] - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [21] - 在执行鲁棒性方面强化学习大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,都展现出显著更强的适应能力 [21] - 在视觉泛化上,两种方法表现相当 [21] 案例分析与深层差异 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [23] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [23] - 强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围,这种更广泛的覆盖解释了强化学习在执行任务上的优越泛化能力 [23]
RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异
机器之心· 2025-10-12 10:41
研究背景与核心问题 - 视觉-语言-动作大模型面临关键挑战:当前主流的有监督微调训练方式在遇到新环境或任务时容易出错,难以实现类人般的泛化能力 [2] - 研究核心问题:探索强化学习能为VLA带来哪些独特的泛化优势,并与有监督微调进行系统性对比 [2] - 清华大学研究团队在NeurIPS 2025发表文章,首次系统性揭示强化学习在提升VLA泛化能力上的独特优势 [2] 研究方法与实验设计 - 研究团队构建了涵盖多种视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在提升模型泛化性上的表现 [4] - 采用目前SoTA之一的开源OpenVLA模型为基础进行研究,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂行动 [7] - 测试三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [9] 强化学习方法比较结果 - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [11] - PPO优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态,这种非平稳性可能破坏了GRPO的优势估计稳定性 [11] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [11] 高效PPO训练方案 - 共享Actor-Critic架构设计:让Actor和Critic共享同一个主干网络,仅在最后添加轻量级MLP作为价值头,显存占用减少45%,训练速度提升35% [13] - VLA模型预热策略:使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需环境交互次数 [15] - 最小化PPO训练轮次:将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [15] SFT与RL性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和,无论是训练分布内还是分布外新物体/桌面的性能都达到上限 [18] - 强化学习在收敛时训练分布内任务性能与有监督微调相当,但在分布外任务上取得42.6%的性能提升,展现出更强的泛化性 [19] - 基于ManiSkill仿真器构建全面评测基准,从视觉、语义和执行三个维度系统地对泛化能力进行拆解 [21] 泛化能力具体表现 - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [23] - 在执行鲁棒性方面大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,强化学习都展现出显著更强的适应能力 [23] - 在视觉泛化上,两种方法表现相当 [23] 深层差异与影响 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [26] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [26] - 执行轨迹分布差异:强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围 [26] - 强化学习在构建真正通用的具身智能体中具有核心价值,能够通过试错学习、自主适应新环境的能力在复杂多变的应用场景中愈发重要 [25]
听说,大家都在梭后训练?最佳指南来了
机器之心· 2025-10-09 10:24
文章核心观点 - 大模型扩展至百亿、千亿级后,Scaling Law的边际效益开始递减,行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果,成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练,目标为预测下一个token,但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据,核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型,将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本,对缺陷极为敏感,少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类,需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然,通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一,通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型,帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展,RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO,其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法,以覆盖模型质量各个方面[57][58] - 自动评估快速廉价,人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置,适用于不同场景[60]
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑
AI前线· 2025-09-18 10:28
核心突破与行业地位 - DeepSeek-R1成为首个通过完整同行评审并发表于《自然》封面的大语言模型 标志着国产AI研究迈入世界舞台并填补行业空白 [2][3][8] - 模型通过纯强化学习机制自主形成推理能力 无需依赖人工标注的思维链数据或提示工程 显著降低对人工数据的依赖 [3][12] - 在Hugging Face平台下载量突破1090万次 成为全球开源社区最受欢迎的推理模型之一 [3] 技术创新与训练方法 - 基于DeepSeek-V3 Base构建R1-Zero 通过多阶段训练结合监督微调和拒绝采样 实现强推理性能与人类偏好对齐 [3] - 采用组相对策略优化技术 模型通过自我评分和试错机制学习独立推理策略 而非模仿人类示例 [13] - 训练成本仅29.4万美元 基础模型开发成本约600万美元 总成本远低于竞争对手数千万美元投入 [6] 数据安全与透明度改进 - 预训练数据完全来自互联网 团队强调未有意进行蒸馏过程 但承认可能包含GPT-4生成文本 [6][13] - 为避免基准测试污染 清除数学数据中约600万条潜在污染样本 并引入外部风险控制机制 [6] - 安全性表现优于Claude-3.7-Sonnet和GPT-4o等主流模型 通过DeepSeek-V3实时审查 [6] 学术影响与行业评价 - 论文经过8位专家评审 收到上百条意见 最终审稿文件达64页 为论文本身三倍长度 [9] - 该方法引发行业革命 2025年几乎所有大语言模型的强化学习研究均受R1启发 [13] - 在ScienceAgentBench科学任务中 以23.53%准确率和1.87美元成本达到帕累托最优 成为性能成本平衡最佳模型之一 [15] 争议回应与验证 - 团队回应OpenAI数据使用质疑 称未直接使用其输出训练 但基础模型可能吸收互联网现有AI生成内容 [13][14] - 外部专家认为反驳具有说服力 其他实验室重复实验表明纯强化学习可实现高性能 无需依赖OpenAI样本 [14] - 论文补充训练细节和技术说明 减少拟人化描述 增加数据类型和安全性披露 [9][13]
华人 AI 招聘 2 年 ARR 超 1000 万美金,Mercor 年化收入已 5 亿美金
投资实习所· 2025-09-16 13:38
行业趋势转变 - AI行业需求从通用型AI导师转向专业型AI导师 涵盖STEM 金融 医学 安全等领域 [2] - 经济正转变为强化学习环境模拟器 强化学习效率提升使智能体能攻克基准测试 但需人类定义奖励函数实现自动化 [2] - 技术革命历史表明 每次变革虽引发失业恐惧 但最终催生新工作类别 如训练AI Agent成为新兴职业 [6] Mercor公司增长 - Mercor年化收入从100万美金增至5亿美金仅用17个月 增长速度持续加速 7月周环比增11% 8月增18% 9月增19% [2] - 平台每日向用户支付超过100万美金 快速招聘软件工程师 医生 律师 顾问 银行家等各领域专家 [3] - 公司定位为AI招聘平台 专注于为AI企业提供强化学习人才 区别于其他聚焦匹配或面试工具的AI招聘产品 [14][15] 人类与AI协作模式 - 人类工作价值从变动成本转向固定成本 例如教会AI模型报税可无限次应用知识 而非重复支付单个任务 [6] - 模型评估需构建更丰富环境 如模拟Google Drive工作空间 复刻多应用脚手架 评估现实世界行动可能性 [9] - 长周期任务和协作环境测试显示 当智能体面对复杂挑战时 人类贡献度再次提升 证明人类数据持续价值 [11] 新兴职业与市场机会 - AI革命将创造新产业阶层 负责塑造AI判断 设计训练环境 确保输出符合人类标准 [12][13] - 人类训练模型的市场规模取决于人类能完成而智能体无法胜任的任务量 当前经济中此类任务仍大量存在 [11] - 行业进入"经验时代" 模型需通过真实世界优化奖励 类似人类学习需反馈机制 如考试评分和绩效评估 [13]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 11:56
文章核心观点 - 提出名为SimpleVLA-RL的新型强化学习框架,旨在解决当前视觉-语言-动作模型训练中的数据稀缺和泛化能力弱两大核心瓶颈 [3][4] - 该框架通过结果奖励和探索增强策略,显著提升了VLA模型在多种基准测试中的性能,并实现了高效仿真到现实的迁移 [6][7][8] - 研究发现RL训练能诱导模型产生超越人类演示数据的新行为策略,即“Pushcut”现象,为机器人自主学习开辟了新方向 [9][25] 研究背景与核心问题 - 当前VLA模型主流训练范式“预训练+监督微调”存在数据稀缺和泛化能力弱两大问题,严重制约模型扩展性 [3] - SFT依赖成本高昂且规模受限的人类操作轨迹数据,并在面对未见过任务或环境时性能大幅下降 [3][4] - 大语言模型领域的进展表明,RL可显著提升推理能力,但将其应用于VLA面临手工设计奖励函数和环境交互成本高的挑战 [4] 主要贡献 - 构建了专为VLA设计的高效RL框架,支持交互式轨迹采样和多环境并行渲染,实现规模化训练 [7] - 在LIBERO、RoboTwin等多个基准测试中刷新SOTA性能,例如LIBERO平均成功率从91.0%提升至99.1% [7][14] - 在数据极度稀缺条件下表现优异,仅用单条演示数据即可将LIBERO平均成功率从48.9%提升至96.9% [7][19] - 仅使用仿真数据训练,便将真实世界机械臂任务的平均成功率从17.5%提升至38.5% [7][24] - 发现了由RL诱导产生的“Pushcut”新现象,即模型自主探索出如“推”等超越人类演示的新策略 [7][9] 核心方案:框架设计 - 采用动作token化策略,使VLA模型输出动作token概率分布,以兼容PPO类RL算法并生成多样化轨迹 [10] - 设计二元结果奖励机制,任务成功则整个轨迹奖励为1,失败为0,奖励均匀分配至每个动作token [11] - 通过动态采样、调整GRPO裁剪范围和提高采样温度三项修改,增强模型的探索效率 [11][15] - 采用修改后的GRPO目标函数,移除KL散度正则项,降低计算复杂度并鼓励新行为探索 [11][15] 实验验证:性能与优势 - 在LIBERO基准测试中,将OpenVLA-OFT模型平均成功率从91.0%提升至99.1%,长时序任务提升12.0个百分点 [14] - 在RoboTwin1.0基准测试中,平均成功率从39.8%提升至70.4%,其中“Blocks Stack”任务提升33.1个百分点 [16] - 在更具挑战性的RoboTwin2.0基准测试中,平均成功率从38.3%提升至68.8%,超越其他SOTA模型 [17][18] 数据效率与泛化能力 - 在“单轨迹SFT”极端数据稀缺场景下,RL训练将LIBERO平均成功率从48.9%大幅提升至96.9%,接近“全轨迹SFT+RL”效果 [19][20] - 在未见任务泛化测试中,RL方法避免了SFT的“灾难性遗忘”问题,所有未见任务成功率均获提升,最高提升36.5个百分点 [21][26] 关键发现与分析 - “Pushcut”现象表明,基于结果奖励的RL允许模型探索所有能完成任务的路径,而非局限于人类演示的单一方式 [25][29] - RL的有效性依赖于初始模型的基础能力,存在一个性能阈值,初始成功率较高时RL提升更为显著 [30][31] - 该研究与现有工作的主要差异在于其专注于机器人交互场景,采用简单规则化的结果奖励,更易于扩展 [31][32]