Workflow
近端策略优化(PPO)
icon
搜索文档
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 08:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]