Workflow
GRPO
icon
搜索文档
NeurIPS25高分论文|以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题
机器之心· 2025-10-26 15:00
核心观点 - 提出一种名为判别式约束优化(DisCO)的新框架,用于强化大型推理模型,该框架基于判别式学习原则,旨在增加正确答案得分并减少错误答案得分[3] - DisCO框架成功解决了群体相对策略优化(GRPO)及其变体存在的难度偏差和熵不稳定性问题[6][27] - 实验结果表明,DisCO在增强大型模型数学推理能力方面显著优于GRPO及其改进版本,在1.5B模型的六个基准任务中平均增益比GRPO高7%,比DAPO高6%[4] GRPO问题分析 - 发现GRPO在二元奖励设置下存在难度偏差问题,其优化目标中的加权项导致模型只重点学习"中等难度"问题,而忽视正确率较高或较低的问题[12] - 实验证实不适当的加权有害影响,移除加权后的变体"GRPO_RW"能在更多问题上实现100%正确率和更少问题上实现0%正确率[12] - 揭示了GRPO优化目标与判别式监督学习AUC最大化思路之间的联系[11] DisCO方法设计 - 采用判别式目标函数,其优化目标类似于AUC优化,直接增加正确答案得分并减少错误答案得分[16] - 引入基于分布鲁棒性优化(DRO)的目标函数来解决稀疏奖励导致的训练数据不平衡问题,该设计借鉴了局部AUC优化技术[17][18] - 采用约束优化方法稳定训练,通过非凸不等式约束优化策略将KL散度约束替换为平滑的方形铰链惩罚项,避免了裁剪操作引起的熵崩塌现象[19][20] 实验结果 - 在1.5B模型实验中,DisCO在六个数学基准数据集上始终显著优于其他基线方法,训练和推理长度均为8k的DisCO比GRPO平均提高7%[22] - 在7B模型实验中,DisCO大幅优于所有基线方法,比GRPO平均提高3.5%[22] - 训练动态分析显示DisCO方法最为稳定,训练奖励不断增加且生成熵保持相对稳定,而GRPO及其变体都出现了熵崩塌或熵过度增长问题[27][28] 技术优势 - 完全消除了GRPO存在的难度偏差问题[6] - 通过使用非裁剪评分函数和约束优化方法,解决了GRPO及其变体的熵不稳定性,获得了长期稳定的训练动态[6][27] - 允许结合先进的判别式学习技术来解决数据不平衡问题,特别是在训练过程中错误答案远多于正确答案的情况[4][17]
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
机器之心· 2025-10-22 16:46
文章核心观点 - 腾讯优图提出了一种名为Training-Free GRPO的新方法,将强化学习中的GRPO算法完整迁移到上下文学习空间,实现了无需更新模型参数的强化学习效果 [4][6][28] - 该方法在保留GRPO多路径探索、组内优势等核心优点的同时,显著降低了超大模型进行强化学习的成本和工程难度,使中小团队也能应用 [3][4][21][24] - 在数学推理和网页搜索等场景的实验中,该方法仅用100个训练样本和8-18美元成本,就在671B模型上实现了性能提升,并展现出更好的泛化能力 [13][14][17][25] 技术方法创新 - 核心创新在于不更新模型参数,而是将GRPO的“学习过程”搬进上下文空间,通过生成多条解答路径、比较组内优劣、根据优势信号更新文本型LoRA来实现学习 [4][10][11] - 方法完全对齐参数空间RL训练流程:多轮迭代学习、并行生成多条解答、提取文本型组内优势、优化文本型LoRA [10][20][26] - 与Self-Refine等就地改写方法不同,该方法在独立数据集上进行多轮迭代训练,对测试集的Out-of-Domain数据也有显著提升 [25] 实验效果与成本优势 - 在数学推理任务中,仅使用100个训练样本和约8-18美元成本,就在671B的DeepSeek-V3.1-Terminus模型上提升性能:AIME24指标从68.6提升至72.6,AIME25从52.9提升至54.0 [13][15] - 结合代码解释器时,AIME25指标从67.9提升至73.3,提升5.4个百分点;同时工具调用次数减少,表明模型学会了更高效使用工具 [14][15] - 在网页搜索场景中,Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [17][18] - 成本相比传统RL训练大幅降低,32B量级模型训练一次RL可能花费上万美元,而该方法仅需8-18美元 [4][24] 行业应用价值 - 该方法使超大模型的RL优化变得廉价、灵活、可持续,为中小团队和个人开发者提供了用得起的强化学习方案 [3][4][28] - 只需一个统一模型和API即可泛化到不同场景,避免了维护多个专用模型的系统复杂度和成本 [25] - 技术已开源并将集成到Youtu-Agent框架中,帮助开发者提升各种自定义场景的效果 [6][26]
NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式
机器之心· 2025-10-14 10:06
文章核心观点 - 大模型后训练是AI进化的关键环节,核心目标是增强模型推理能力、对齐人类偏好并保持稳定高效 [1] - 作业帮与香港科技大学(广州)团队提出全新后训练方法GVPO,该方法通过避免重要性采样解决了GRPO的训练不稳定和超参数敏感问题 [2] - GVPO在理论上提供唯一最优解保证,在数学推理任务实验中表现全面超越GRPO和DrGRPO等现有方法 [2][21] - GVPO标志着后训练从经验驱动转向理论保证,可能引发下一代后训练的范式转变,具备更稳定、更灵活、更高效的特点 [25][26] GVPO设计动机与方法 - 研究团队受DPO启发,旨在GRPO场景下利用KL约束下奖励最大化的解析解,但面临公式中Z(x)计算不可行的实际困难 [5][6] - GVPO通过保证同一提示词下所有采样对应梯度权重之和为零,使Z(x)自然消掉,从而规避计算难题 [6] - GVPO的损失函数等价于均方误差损失,其物理意义是让隐式奖励去逼近真实奖励 [10][11] GVPO关键优势 - 拥有唯一最优解保证,研究团队从必要性和充分性证明当且仅当隐式奖励等于真实奖励时达到唯一最优解 [13] - 无须重要性采样,对训练时的采样分布几乎无限制,能适配任意满足条件的分布,支持无需重要性采样的离线策略训练 [14] - 能够充分利用人类专家数据、蒸馏数据和历史数据,避免重要性采样常见的训练不稳定问题,更契合大规模工业级应用 [14] GVPO分析视角 - 负对数似然视角下,GVPO损失函数可表示为带权重的负对数似然,涵盖传统策略梯度方法并允许整合历史数据和异构数据源 [17] - 均方误差视角下,优化目标等价于最小化隐式奖励与实际奖励中心距离的偏差,保证收敛到唯一全局最优解 [18] - 强化学习视角下,损失函数包含组相对奖励项、方差正则项和协方差正则项,共同保障训练稳定性并避免熵塌缩 [19][20] 实验结果 - 在数学推理任务系统对比中,基座模型Qwen25-Math-7B使用GVPO后在AIME2024、AMC、MATH500、Minerva、OlympiadBench五个基准测试全面领先 [21] - GVPO在AIME2024得分从基座的1468提升至2072,在AMC从3855提升至6265,在MATH500从6400提升至8380,在Minerva从2720提升至4595,在OlympiadBench从3066提升至4696 [21] - 消融实验显示GVPO对超参数β不敏感几乎无需调参,在采样数量增加时扩展性优异,且支持混合采样策略进一步降低成本 [23] 行业意义与前景 - GVPO为可靠通用的大模型后训练提供全新范式,推动后训练从经验驱动走向理论保证 [25] - 该方法具备更稳定特性可降低大规模训练的工程风险,更灵活特性可支撑更复杂数据利用场景,更高效特性可在推理和对齐中获得更佳性价比 [26] - 在大模型迈向通用智能道路上,后训练已成为竞争焦点,GVPO的提出可能预示着下一代后训练的范式转变 [25]
不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
具身智能之心· 2025-10-10 08:02
强化学习提升大模型推理能力的机制 - 强化学习能提升大语言模型的复杂推理能力,但其内在机制此前不明朗 [2][5] - 研究首次揭示大模型通过类人方式学会推理,即将高层策略规划与底层程序执行相分离 [3][12] - 核心机制是模型先固化基础执行能力,再自主发展出策略规划能力 [13] 两阶段学习动力学 - 第一阶段为底层技能巩固,模型专注于掌握低级技能,如算术计算和格式规范,表现为执行token的熵值急剧下降 [14][23][24] - 第二阶段为高层规划探索,学习重心转向高级策略规划,表现为规划token的语义多样性提升,并与推理能力提升及解决方案链条延长直接相关 [14][17][28] - 对于强模型或易学习数据,第一阶段可能短暂甚至不存在 [27] 对特定现象的解释 - “顿悟时刻”是模型发现、掌握并强化某种高层策略(如自我反思)时的行为特征信号,并非偶然灵光 [33][34] - “长度缩放”现象源于更好的规划,模型探索到更丰富精细的策略后自然生成更长、更有结构的推理链条,导致输出越长越准 [35][37][38] - 整体token级熵值下降是因大量执行token变得高度可预测,而规划token的语义熵上升才真实反映策略探索进展 [39][40] 新算法HICRA的性能优势 - 针对现有RL方法对所有token无差别优化导致学习信号稀释的问题,提出了分层感知信用分配机制HICRA,其核心是聚焦稀疏但高价值的规划token的学习权重 [41][42][44] - 在多项数学推理基准测试中,HICRA持续超越GRPO基线方法,例如在Qwen3-4B-Instruct模型上,AIME24任务得分从GRPO的68.5提升至HICRA的73.1,提升5.4个百分点 [45][46] - 在多模态推理基准测试中,HICRA也表现优异,如在MiMO-VL模型上,Math Vista任务得分从GRPO的73.7提升至HICRA的80.7,提升7.0个百分点 [47] 关键指标与错误分析 - 语义熵是衡量策略探索的有效指标,能避免token级熵值和Pass@K指标的缺陷,清晰显示策略多样性并与性能提升正相关 [56][58][59] - 强化学习的主要优势在于修正高层策略失误(如逻辑缺陷、计划错误),而非细微的计算错误 [50][51] - 大多数高熵token并非规划token,仅依靠熵值识别具有精确语义功能的token存在局限性 [64][65]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
36氪· 2025-09-01 12:38
大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好 预训练使模型掌握通用语言能力 但后训练强化特定领域知识和应用能力 增强模型适应性和灵活性[5] - 强化学习核心是反馈机制 目标是增加好结果出现概率 降低坏结果出现概率 在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制 加入Critic价值函数和CLIP操作 保证策略更新不过度同时高效提升性能 成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度 显著降低训练过程方差 同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度 避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数 采用策略模型多次输出采样奖励平均值作为基准线 超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍 训练速度比PPO快3-5倍 采用单策略网络架构 优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题 容易导致训练崩溃 需要大量数据降低策略梯度方差 中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进 让Qwen2.5-32B模型在AIME 2024基准获得50分 优于同等规模DeepSeek模型 训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间 提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语 保留有效梯度样本 提高训练效率 采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级 基于整个序列似然度计算重要性比值 显著降低长序列中积累的高方差 提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化 避免importance ratio对长度敏感造成不稳定 同一序列所有token共用同一重要性权重 裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作 成为Qwen3强化学习核心实践框架 可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题 可同时优化多个响应属性如简洁性和准确度 避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组 过滤不符合目标属性响应 在所选组内使用标准奖励计算相对优势 无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面 可与任何GRPO类似方法兼容 包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题 多个奖励信号被合并为单一标量信号 模型无法知道具体因什么行为被奖励 即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈 仅使用数值化奖励信号 文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支 使GRPO在多轮任务训练变得非常困难[44]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 10:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
机器之心· 2025-08-14 12:57
核心观点 - 微软研究员提出了一种名为 Group Filtered Policy Optimization (GFPO) 的新型强化学习算法,旨在解决推理模型中因强化学习导致的冗长响应问题,同时保持准确度 [2][3] - GFPO 通过采样更大的候选响应组并显式过滤所需属性(如简洁性),可在推理阶段将多余 token 长度削减多达 80% [3][11] - 该算法无需复杂奖励工程即可同时优化多个响应属性(如长度和准确度),且与现有 GRPO 变体兼容 [11][14] 技术背景 - GFPO 基于 DeepSeek 提出的组相对策略优化(GRPO),后者简化了近端策略优化(PPO)算法,但依赖单一标量奖励信号导致响应长度膨胀 [7][8] - GRPO 的局限性在于难以联合优化多个响应属性,例如准确度提升伴随长度增加 [8] GFPO 实现机制 - 核心方法:为每个问题采样更大响应组(G),按指标(如长度)过滤出前 k 个响应子集(S),仅用 S 计算策略梯度 [12] - 优势归一化:使用子集 S 的奖励均值(μ_S)和标准差(σ_S)归一化优势,优先奖励过滤后高奖励响应 [13] - 训练成本:采样更多响应增加训练开销,但推理阶段更短响应可抵消成本 [15] 自适应难度 GFPO - 动态调整留存响应数量(k):根据问题难度(奖励均值)分配 k 值(简单 4/中等 6/困难 8),聚焦计算资源于难题 [21] - 效果:减少简单问题冗长,同时通过保留更多推理链维持难题准确度 [21] 实验发现 长度缩减效果 - token 效率优化实现最大幅度缩减:在 AIME 24、GPQA、OmniMATH 等数据集上分别减少 84.6%、79.7%、82.6% 多余长度 [31] - 极端冗长响应(≥20k token)比例从 32% 降至 22% [39] 准确度表现 - 自适应难度 GFPO 在中等和极难问题上准确度超越 GRPO,同时缩短 47%-60% 长度 [40] - 更大分组规模(如 8/24)通过更多采样维持难题准确度 [40] 关键参数影响 - 留存响应比例(k/G)25-33% 为最佳平衡点,保留比例越小长度增益递减 [28] - 分组规模(G)扩大可提升难题准确度,如 Shortest 8/24 与 GRPO 准确度相当 [40] 应用场景扩展 - GFPO 可集成事实性、多样性等指标优化其他属性,适用于推理解答验证(AIME 25 解答步骤冗长减少 94.4%)[16][44]
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
机器之心· 2025-08-07 17:42
大型语言模型训练技术演进 - 大型语言模型训练分为两个阶段:预训练阶段通过大规模文本数据集训练模型预测下一个词,后训练阶段旨在提升模型理解和执行人类指令的能力[1] - 后训练阶段采用强化学习技术,OpenAI首创基于人类反馈的强化学习(RLHF),依赖人工标注但成本高效率低[2] - DeepSeek创新性地用自动化RL技术替代人工评估,通过奖励信号自主学习,显著降低成本并提高效率[2] 强化学习算法对比 - OpenAI在ChatGPT中采用近端策略优化(PPO)算法[3] - DeepSeek提出组相对策略优化(GRPO)算法,通过组样本价值估计提升效率,成为DeepSeek-R1核心技术[3] - Qwen团队指出GRPO存在稳定性问题,提出组序列策略优化(GSPO)算法,在Qwen3系列模型中实现更稳定训练[10][22] GRPO的技术缺陷 - GRPO采用逐token重要性采样,导致长序列训练中方差累积和梯度不稳定[11][16] - 在MoE模型中问题加剧,10%的专家网络激活变化导致训练低效[25] - 实验显示GRPO在CodeForces任务中得分收敛于2000分以下,而GSPO持续提升展现更强可扩展性[20] GSPO的创新优势 - 将重要性采样提升至序列级别并通过长度归一化,显著降低方差[23] - 无需Routing Replay等辅助策略即可稳定训练MoE模型,保留架构潜力[27] - 在48层Qwen3-30B-A3B-Base模型训练中,消除10%专家网络激活差异问题[25] 行业技术发展趋势 - Qwen3系列模型通过GSPO在知识数学、编程等测评中超越Kimi-K2、Claude-Opus4等顶级模型[5] - 实验证明GSPO训练效率显著高于GRPO,可能成为后训练强化学习新标准[31] - 行业共识认为强化学习在后训练阶段对提升大语言模型推理能力至关重要[31]
当提示词优化器学会进化,竟能胜过强化学习
机器之心· 2025-07-31 16:58
核心观点 - GEPA(Genetic-Pareto)通过反思式提示词进化技术,性能超越GRPO强化学习算法20%,同时将rollout次数减少至1/35 [1][2][39] - GEPA采用遗传式提示词进化、自然语言反馈反思和基于帕累托的候选选择三大核心原理 [6][7][8] - 在GPT-4.1 mini和Qwen3 8B模型上,GEPA全面超越MIPROv2优化器,最高优势达11.1% [41][42] 技术原理 - **遗传式优化循环**:通过突变/杂交迭代生成新候选,继承父级学习信号并积累经验教训 [13][14][15][16] - **反思式提示更新**:利用LLM分析执行轨迹,将结果归因于模块提示词并提出针对性更新 [21][22][23] - **帕累托候选选择**:筛选非占优候选策略,平衡探索与利用避免局部最优 [27][30][31][35] 性能表现 - **样本效率**:仅用GRPO 1/35的rollout次数实现19%性能提升 [39] - **基准测试**:在HotpotQA/IFBench/Hover/PUPA四大任务中,GEPA聚合分数达61.28(Qwen3 8B)和66.97(GPT-4.1 mini) [38] - **比较优势**:GEPA+Merge方案在GPT-4.1 mini上相对基线提升16.02%,是MIPROv2增益的两倍以上 [38][42] 创新亮点 - **计算效率**:优化后指令比少样本演示提示词更短,降低推理成本 [45] - **杂交策略**:系统感知型Merge操作可额外带来5%性能提升 [47] - **选择策略**:基于帕累托的采样方法比单纯选择最佳候选性能高6.4% [44]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 20:41
2025年VLA领域RL算法发展综述 核心观点 - VLA领域RL算法在2025年5月迎来技术爆发,传统算法(PPO、GRPO、DPO)被迁移至VLA场景,并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式(监督预训练+在线RL微调),结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法,提出双阶段训练:监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务,消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制,轨迹级奖励设计包含三部分:成功奖励(1/0)、自我奖励(轨迹生成概率对数)、外部奖励(VLM+GPT-4o生成的动态cost函数) [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO(留一法优势估计)与PPO,解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新,多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程,设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化:GPU负载均衡矢量化环境、分布式训练框架(PyTorch FSDP)、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法,但需探索新算法适配VLA特性(如LOOP) [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]