强化学习(RL)
搜索文档
GPT-5 核心成员详解 RL:Pre-training 只有和 RL 结合才能走向 AGI
海外独角兽· 2025-10-18 20:03
文章核心观点 - 强化学习与预训练的结合是当前AI发展的核心路径,两者相互依存,共同推动模型能力的提升[16][50] - 推理能力是AI发展的关键里程碑,其本质是模型寻找未知答案的思考过程,而不仅仅是简单的搜索[7][9] - 公司通过持续迭代其模型架构和训练方法,实现了从技术展示到实用产品的跨越,并确立了在行业中的领先地位[13][15][62] 强化学习与预训练的结合 - 预训练是基础,为强化学习提供必要的知识基础,没有预训练,强化学习难以奏效[16][22] - 强化学习必须建立在强大的预训练之上,而预训练同样需要强化学习的强化与闭环才能成功[3][50] - 公司自2019年就确立了“在大量数据上训练大型生成模型,然后进行强化学习”的战略路线,并延续至今[17] - 强化学习被比喻为训练狗的过程,通过奖励期望行为和惩罚不期望行为来优化模型策略[19][20] - 与相对标准化的预训练相比,强化学习更为复杂和精细,涉及更多动态组件,大规模扩展时挑战更大[33] 推理模型的技术演进 - 推理被定义为“找到一个未知答案的过程”,这比简单的“回答问题”需要更长的时间和更复杂的工作[7][9] - 思维链是模型将内部思考过程以人类语言和概念表达出来的能力,本质上是文字编码的思考过程[10][11] - 公司在推理模型的开发上遵循逐步扩展的训练实验路径,从展示能力的o1模型,到真正有用的o3模型,再到被视为o3迭代的GPT-5模型[13][15] - 模型思考时间的权衡由用户体验驱动,公司在产品层面提供不同模式让用户在输出质量和等待时间之间进行选择[12] - 编程能力是推理模型能力的一个自然副产品,研究人员常用编程问题测试新想法,使模型在该领域表现突出[43] 行业竞争与开源影响 - 公司在发布o1模型后,对许多研究实验室产生了意外冲击,而开源模型如DeepSeek的GRPO算法为其他实验室提供了快速跟进的操作说明书[30][32] - 数据标注行业必须不断自我更新,因为AI能力快速提升,几个月前需要人工标注的任务可能很快就能由AI自动完成[27] - 行业内的研究组织方式趋向于集中资源推进少数核心项目,而非进行大量分散的小赌注,以确保研究深度和效率[60] 智能体与未来发展方向 - 智能体系统的核心是让模型能够长时间自主思考,与更多系统和信息源交互,以完成复杂的长任务清单[34][35] - 目前大多数针对语言模型的强化学习仍是在线训练,但在与真实用户隔离的环境中进行,实时在线学习因安全考虑尚未大规模应用[36][38] - 对齐问题在某种程度上被视为一个强化学习问题,需要通过引导模型产生特定行为来实现,但这是一个持续演变的挑战[38][39] - 通向AGI的终极问题在于模型何时能在不依赖大量外部干预和人类修正的情况下实现自我改进[47] - 未来的发展路径更可能是在现有体系上持续叠加新方法,逐步淘汰旧元素,而非彻底推翻重来的转向[52]
聊聊 AI Agent 到底有多大创新?
自动驾驶之心· 2025-10-18 12:00
AI Agent技术当前面临的挑战 - 当前AI Agent在用户体验上与传统task bot相比并无显著提升,甚至更差[1] - Planning阶段耗时巨大,工具增多后模型准确率下降,使用旗舰模型进一步增加延时[2] - Planning质量不高,模型构建的复杂工作流可用率远低于人类水平,简单工作流使用判别式小模型性能更好[2] - Reflection策略容易陷入自我内耗和死循环[3] Planning速度问题的本质与解决方案 - 核心问题是工具发现和参数对齐成本被低估,从编译时确定的工具编排变为运行时动态选择,搜索空间随工具数量指数级膨胀[5] - 解决方案包括工具层缩小范围分层治理,先用意图分类器将请求路由到具体域,每个域只暴露5-10个核心工具[5] - 将串行改为DAG并行执行,LLMCompiler支持将调用计划编译成有向无环图,并行化可使链路耗时缩短20%[6] - 在项目开始节点增加路由策略,简单任务路由给SLM或专用执行器,复杂规划才使用强推理模型[6] Planning质量问题的本质与提升方案 - 本质原因是模型生成的文字描述计划缺乏可执行性和全局约束,传统workflow有明确的分支条件和异常处理[8] - HiPlan方案将计划拆分为里程碑和局部提示两层,高层管战略目标,低层负责战术细节,里程碑可离线积累复用[8] - Routine实践提供结构化计划框架,强制模型输出符合语法的计划,可将企业场景工具调用准确率提升平均20多个百分点[10] - 搜索式规划如LATS引入MCTS,展开多条路径用Verifier评分选最优,HyperTree和Graph-of-Thoughts支持非树形图结构[12] - 基于强化学习的多轮训练可有效提升agent长程任务性能,例如RAGEN、LMRL-Gym等研究实现明显指标提升[14] Reflection死循环问题的根源与修复方法 - 根本原因是缺少细粒度可计算信号和明确停机条件,模型反思仅靠主观判断易强化错误假设[15] - UFO研究使用最简单的一元反馈如Try again进行多轮RL,不需要详细错误诊断即可学会自我改进[17] - Tool-Reflection-Bench将错误修复过程变为明确可控动作,模型学会基于证据诊断错误并提出可执行后续调用[18] - 工程层面可设置max_rounds硬性上限、no-progress-k连续无改进则停、state-hash去重、cost-budget预算终止等机制[20] AI Agent技术发展趋势与价值 - Agent现阶段问题需结合强化学习,构建多轮交互特定环境,让模型学到稳定推理执行能力[20] - 端到端RL将整个Agent视为策略网络,直接从环境反馈学习,涌现规划、工具使用、反思等能力,是未来技术趋势[20] - AI Agent是LLM在现实场景业务落地最有价值的技术方向,Agent能力正逐步内化为模型能力[21] - RL契合Agent在垂直领域现实环境的问题模拟,工具高度封装化和运行环境可迁移性使sim2real难题不再成为掣肘[21] - 通过RL训练的Agent模型具备很高实用价值且价值持续扩大,同时降低了应用下限并提升了能力上限[21]
NeurIPS 2025|清华团队分析RL将如何提升VLA泛化性
具身智能之心· 2025-10-15 12:00
研究背景与核心观点 - 视觉-语言-动作大模型在具身智能领域潜力巨大,但当前主流的有监督微调方法在面对新环境或任务时泛化能力有限 [1] - 清华大学研究团队首次系统性揭示了强化学习在提升VLA模型泛化能力上的独特优势,并提出了全面的评测基准和高效训练方法 [1][3] - 强化学习微调VLA模型能显著提升语义理解和任务执行的鲁棒性,在视觉变化场景下保持与有监督微调相当的表现 [3] 研究方法与模型基础 - 研究采用目前最先进的开源OpenVLA模型为基础,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂 [4][6] - 团队构建了涵盖视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在泛化性上的表现 [3][19] 强化学习方法比较 - 测试了三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [8] - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [15] - PPO的优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态的非平稳性可能破坏了GRPO的优势估计稳定性 [15] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [15] 高效PPO训练方案 - 提出共享Actor-Critic架构设计,让Actor和Critic共享同一个主干网络,仅添加轻量级MLP作为价值头,使显存占用减少45%,训练速度提升35% [12] - 使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需的环境交互次数 [14] - 将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [14] 有监督微调与强化学习性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和 [17] - 强化学习在训练分布内任务性能与有监督微调相当,但在分布外任务上取得了42.6%的性能提升,展现出更强的泛化性 [18] - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [21] - 在执行鲁棒性方面强化学习大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,都展现出显著更强的适应能力 [21] - 在视觉泛化上,两种方法表现相当 [21] 案例分析与深层差异 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [23] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [23] - 强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围,这种更广泛的覆盖解释了强化学习在执行任务上的优越泛化能力 [23]
RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异
机器之心· 2025-10-12 10:41
研究背景与核心问题 - 视觉-语言-动作大模型面临关键挑战:当前主流的有监督微调训练方式在遇到新环境或任务时容易出错,难以实现类人般的泛化能力 [2] - 研究核心问题:探索强化学习能为VLA带来哪些独特的泛化优势,并与有监督微调进行系统性对比 [2] - 清华大学研究团队在NeurIPS 2025发表文章,首次系统性揭示强化学习在提升VLA泛化能力上的独特优势 [2] 研究方法与实验设计 - 研究团队构建了涵盖多种视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在提升模型泛化性上的表现 [4] - 采用目前SoTA之一的开源OpenVLA模型为基础进行研究,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂行动 [7] - 测试三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [9] 强化学习方法比较结果 - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [11] - PPO优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态,这种非平稳性可能破坏了GRPO的优势估计稳定性 [11] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [11] 高效PPO训练方案 - 共享Actor-Critic架构设计:让Actor和Critic共享同一个主干网络,仅在最后添加轻量级MLP作为价值头,显存占用减少45%,训练速度提升35% [13] - VLA模型预热策略:使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需环境交互次数 [15] - 最小化PPO训练轮次:将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [15] SFT与RL性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和,无论是训练分布内还是分布外新物体/桌面的性能都达到上限 [18] - 强化学习在收敛时训练分布内任务性能与有监督微调相当,但在分布外任务上取得42.6%的性能提升,展现出更强的泛化性 [19] - 基于ManiSkill仿真器构建全面评测基准,从视觉、语义和执行三个维度系统地对泛化能力进行拆解 [21] 泛化能力具体表现 - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [23] - 在执行鲁棒性方面大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,强化学习都展现出显著更强的适应能力 [23] - 在视觉泛化上,两种方法表现相当 [23] 深层差异与影响 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [26] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [26] - 执行轨迹分布差异:强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围 [26] - 强化学习在构建真正通用的具身智能体中具有核心价值,能够通过试错学习、自主适应新环境的能力在复杂多变的应用场景中愈发重要 [25]
听说,大家都在梭后训练?最佳指南来了
机器之心· 2025-10-09 10:24
文章核心观点 - 大模型扩展至百亿、千亿级后,Scaling Law的边际效益开始递减,行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果,成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练,目标为预测下一个token,但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据,核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型,将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本,对缺陷极为敏感,少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类,需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然,通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一,通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型,帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展,RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO,其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法,以覆盖模型质量各个方面[57][58] - 自动评估快速廉价,人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置,适用于不同场景[60]
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑
AI前线· 2025-09-18 10:28
核心突破与行业地位 - DeepSeek-R1成为首个通过完整同行评审并发表于《自然》封面的大语言模型 标志着国产AI研究迈入世界舞台并填补行业空白 [2][3][8] - 模型通过纯强化学习机制自主形成推理能力 无需依赖人工标注的思维链数据或提示工程 显著降低对人工数据的依赖 [3][12] - 在Hugging Face平台下载量突破1090万次 成为全球开源社区最受欢迎的推理模型之一 [3] 技术创新与训练方法 - 基于DeepSeek-V3 Base构建R1-Zero 通过多阶段训练结合监督微调和拒绝采样 实现强推理性能与人类偏好对齐 [3] - 采用组相对策略优化技术 模型通过自我评分和试错机制学习独立推理策略 而非模仿人类示例 [13] - 训练成本仅29.4万美元 基础模型开发成本约600万美元 总成本远低于竞争对手数千万美元投入 [6] 数据安全与透明度改进 - 预训练数据完全来自互联网 团队强调未有意进行蒸馏过程 但承认可能包含GPT-4生成文本 [6][13] - 为避免基准测试污染 清除数学数据中约600万条潜在污染样本 并引入外部风险控制机制 [6] - 安全性表现优于Claude-3.7-Sonnet和GPT-4o等主流模型 通过DeepSeek-V3实时审查 [6] 学术影响与行业评价 - 论文经过8位专家评审 收到上百条意见 最终审稿文件达64页 为论文本身三倍长度 [9] - 该方法引发行业革命 2025年几乎所有大语言模型的强化学习研究均受R1启发 [13] - 在ScienceAgentBench科学任务中 以23.53%准确率和1.87美元成本达到帕累托最优 成为性能成本平衡最佳模型之一 [15] 争议回应与验证 - 团队回应OpenAI数据使用质疑 称未直接使用其输出训练 但基础模型可能吸收互联网现有AI生成内容 [13][14] - 外部专家认为反驳具有说服力 其他实验室重复实验表明纯强化学习可实现高性能 无需依赖OpenAI样本 [14] - 论文补充训练细节和技术说明 减少拟人化描述 增加数据类型和安全性披露 [9][13]
华人 AI 招聘 2 年 ARR 超 1000 万美金,Mercor 年化收入已 5 亿美金
投资实习所· 2025-09-16 13:38
行业趋势转变 - AI行业需求从通用型AI导师转向专业型AI导师 涵盖STEM 金融 医学 安全等领域 [2] - 经济正转变为强化学习环境模拟器 强化学习效率提升使智能体能攻克基准测试 但需人类定义奖励函数实现自动化 [2] - 技术革命历史表明 每次变革虽引发失业恐惧 但最终催生新工作类别 如训练AI Agent成为新兴职业 [6] Mercor公司增长 - Mercor年化收入从100万美金增至5亿美金仅用17个月 增长速度持续加速 7月周环比增11% 8月增18% 9月增19% [2] - 平台每日向用户支付超过100万美金 快速招聘软件工程师 医生 律师 顾问 银行家等各领域专家 [3] - 公司定位为AI招聘平台 专注于为AI企业提供强化学习人才 区别于其他聚焦匹配或面试工具的AI招聘产品 [14][15] 人类与AI协作模式 - 人类工作价值从变动成本转向固定成本 例如教会AI模型报税可无限次应用知识 而非重复支付单个任务 [6] - 模型评估需构建更丰富环境 如模拟Google Drive工作空间 复刻多应用脚手架 评估现实世界行动可能性 [9] - 长周期任务和协作环境测试显示 当智能体面对复杂挑战时 人类贡献度再次提升 证明人类数据持续价值 [11] 新兴职业与市场机会 - AI革命将创造新产业阶层 负责塑造AI判断 设计训练环境 确保输出符合人类标准 [12][13] - 人类训练模型的市场规模取决于人类能完成而智能体无法胜任的任务量 当前经济中此类任务仍大量存在 [11] - 行业进入"经验时代" 模型需通过真实世界优化奖励 类似人类学习需反馈机制 如考试评分和绩效评估 [13]
SimpleVLA-RL:突破 VLA 模型训练瓶颈,RL实现端到端在线训练
自动驾驶之心· 2025-09-15 11:56
文章核心观点 - 提出名为SimpleVLA-RL的新型强化学习框架,旨在解决当前视觉-语言-动作模型训练中的数据稀缺和泛化能力弱两大核心瓶颈 [3][4] - 该框架通过结果奖励和探索增强策略,显著提升了VLA模型在多种基准测试中的性能,并实现了高效仿真到现实的迁移 [6][7][8] - 研究发现RL训练能诱导模型产生超越人类演示数据的新行为策略,即“Pushcut”现象,为机器人自主学习开辟了新方向 [9][25] 研究背景与核心问题 - 当前VLA模型主流训练范式“预训练+监督微调”存在数据稀缺和泛化能力弱两大问题,严重制约模型扩展性 [3] - SFT依赖成本高昂且规模受限的人类操作轨迹数据,并在面对未见过任务或环境时性能大幅下降 [3][4] - 大语言模型领域的进展表明,RL可显著提升推理能力,但将其应用于VLA面临手工设计奖励函数和环境交互成本高的挑战 [4] 主要贡献 - 构建了专为VLA设计的高效RL框架,支持交互式轨迹采样和多环境并行渲染,实现规模化训练 [7] - 在LIBERO、RoboTwin等多个基准测试中刷新SOTA性能,例如LIBERO平均成功率从91.0%提升至99.1% [7][14] - 在数据极度稀缺条件下表现优异,仅用单条演示数据即可将LIBERO平均成功率从48.9%提升至96.9% [7][19] - 仅使用仿真数据训练,便将真实世界机械臂任务的平均成功率从17.5%提升至38.5% [7][24] - 发现了由RL诱导产生的“Pushcut”新现象,即模型自主探索出如“推”等超越人类演示的新策略 [7][9] 核心方案:框架设计 - 采用动作token化策略,使VLA模型输出动作token概率分布,以兼容PPO类RL算法并生成多样化轨迹 [10] - 设计二元结果奖励机制,任务成功则整个轨迹奖励为1,失败为0,奖励均匀分配至每个动作token [11] - 通过动态采样、调整GRPO裁剪范围和提高采样温度三项修改,增强模型的探索效率 [11][15] - 采用修改后的GRPO目标函数,移除KL散度正则项,降低计算复杂度并鼓励新行为探索 [11][15] 实验验证:性能与优势 - 在LIBERO基准测试中,将OpenVLA-OFT模型平均成功率从91.0%提升至99.1%,长时序任务提升12.0个百分点 [14] - 在RoboTwin1.0基准测试中,平均成功率从39.8%提升至70.4%,其中“Blocks Stack”任务提升33.1个百分点 [16] - 在更具挑战性的RoboTwin2.0基准测试中,平均成功率从38.3%提升至68.8%,超越其他SOTA模型 [17][18] 数据效率与泛化能力 - 在“单轨迹SFT”极端数据稀缺场景下,RL训练将LIBERO平均成功率从48.9%大幅提升至96.9%,接近“全轨迹SFT+RL”效果 [19][20] - 在未见任务泛化测试中,RL方法避免了SFT的“灾难性遗忘”问题,所有未见任务成功率均获提升,最高提升36.5个百分点 [21][26] 关键发现与分析 - “Pushcut”现象表明,基于结果奖励的RL允许模型探索所有能完成任务的路径,而非局限于人类演示的单一方式 [25][29] - RL的有效性依赖于初始模型的基础能力,存在一个性能阈值,初始成功率较高时RL提升更为显著 [30][31] - 该研究与现有工作的主要差异在于其专注于机器人交互场景,采用简单规则化的结果奖励,更易于扩展 [31][32]
正式开课!具身大脑和小脑算法与实战教程来啦
具身智能之心· 2025-09-15 08:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度的运动执行)[1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设具身智能大脑、小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 代表工作包括OpenVLA、RT-2、PI0等 融合视觉感知、语言理解与动作生成模块[7] - VLA模型支持零样本或小样本快速泛化 实现从"感知+控制"向"感知+推理+行动"的范式跃迁[7] - 2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限[9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力[11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 助力高效规划与决策[11] - VLA+触觉信息拓展从"看"到"看+触多模态融合"的感知边界 实现更精细安全的操作[12] 应用与人才发展 - 技术演进推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[14] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 导致许多学生转入具身智能领域研究[14] - 产业界重视推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[17] - 需掌握Mujoco/IsaacGym/Pybullet等平台的策略训练与仿真测试能力[17] - 需具备训练部署Diffusion Policy/VLA/力触融合VLA模型的实践能力[17] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[17] - 需掌握从世界建模预测→策略学习→物理执行的一体化具身智能架构[17]
清华、上海AI Lab等顶级团队发布推理模型RL超全综述
具身智能之心· 2025-09-15 08:04
强化学习在大推理模型中的发展历程 - 强化学习自1998年Sutton提出概念以来 明确奖励信号可使智能体在复杂环境中超越人类 [4] - 2013年DeepMind展示RL训练智能体仅凭像素和得分反馈学会玩《打砖块》游戏 [4] - AlphaGo和AlphaZero通过自我对弈和奖励信号在围棋等棋类达到人类难以企及水平 [4] - 大模型时代RL应用于人类反馈强化学习(RLHF)使模型回答更符合人类偏好 [4] 大推理模型(LRM)的新趋势 - 研究者希望通过RL让模型不仅"更听话"且真正学会"推理" 通过可验证奖励提升数学题答对率或代码测试通过率 [5] - OpenAI的o1和DeepSeek-R1展示RL训练后模型具备更好规划、反思和自我纠正能力 [5][13] - 推理能力可通过扩展不断增强 与参数规模、训练数据并列成为新扩展路径 [5][13] 技术实现与核心突破 - LRM采用可验证奖励训练(RLVR)掌握长链推理能力 包括规划、反思和自我纠错 [13] - OpenAI o1性能随额外RL训练算力增加和推理阶段"思考时间"算力增加持续提升 [13] - DeepSeek-R1在数学任务采用基于规则准确率奖励 编程任务采用编译器/测试驱动奖励 展示大规模GRPO算法引导复杂推理能力 [13] - RL方法从RLHF(2022)演进至DPO(2023)再到RLVR(2025) 任务解决能力和能力提升持续增加 [15] 系统特性与扩展路径 - LRM在推理过程分配大量计算资源生成、评估和修正中间推理链 性能随计算预算增加提升 [15] - 提供与预训练数据规模和参数规模扩展互补的能力增长路径 [15] - 利用奖励最大化目标在存在可靠验证器领域实现自动可检验奖励 [15] - RL通过生成自监督训练数据克服数据限制 被视为实现通用人工超级智能(ASI)的潜在技术路径 [15] 研究综述内容框架 - 引入LRM语境下RL建模基本定义 梳理自OpenAI o1发布以来前沿推理模型发展 [16] - 回顾RL for LRM核心组件:奖励设计、策略优化和采样策略 比较不同研究方向和技术方案 [16] - 讨论基础性与争议性问题:RL角色、RL vs SFT、模型先验、训练方法及奖励定义 [16] - 总结训练资源包括静态语料库、动态环境和训练基础设施 [16] - 综述RL在编程任务、智能体任务、多模态任务、多智能体系统、机器人任务及医学应用 [16][18] - 探讨未来研究方向包括新算法、新机制、新功能及其他潜在路径 [16][18] 领域挑战与机遇 - RL在大推理模型应用面临奖励设计合理性、算法效率、数据与算力支撑等挑战 [6] - 扩展挑战不仅限于计算资源 还涉及算法设计、训练数据和基础设施 [8][15] - 如何扩展RL实现更高水平智能并产生现实价值仍是未解决问题 [15] - 需重新审视领域发展 探索增强RL可扩展性策略以迈向通用人工超级智能 [8][15]