群体相对策略优化（GRPO） - 财报，业绩电话会，研报，新闻

群体相对策略优化（GRPO）

搜索文档

机器之心· 2025-12-08 12:27

DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型，随后推出基于相同架构的专用推理模型DeepSeek R1，使其成为最受欢迎的开放权重模型之一，成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中，公司模型策略从专用推理模型转向混合模型，V3.1和V3.2均为兼具通用聊天和推理能力的混合模型，而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp，旨在为更大规模的发布准备生态系统和推理基础设施，该模型引入了非标准的稀疏注意力变体，需要定制代码[17][18] - 2025年12月1日，公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale，与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新：注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构，MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存，虽然增加了一次额外的矩阵乘法，但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力，该机制由Lightning Indexer和Token选择器组成，基于学习到的相关性分数选择性地关注部分过去的Token，而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk)，其中L是序列长度，k是选定Token的数量，在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构，集成了MLA和DSA机制，主要动机是提高整体模型性能的同时，将计算效率视为巨大驱动因素[107][110] 训练方法演进：从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力，其核心思想是让模型从可以进行符号化或编程验证的响应中学习，例如数学和代码[37][38] - RLVR流程使用了GRPO算法，这是“近端策略优化”算法的一个简化变体，GRPO取消了评论家模型，而带GRPO的RLVR进一步移除了奖励模型，转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点，公司在DeepSeekMath V2中引入了自我验证与自我修正技术，开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查，使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间，公司使用单一模型同时执行证明生成和验证，这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求，通过多达8次的自我修正迭代，模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序，但更新了奖励机制，对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励，对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域，公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身，公司进行了一系列稳定性更新，包括：零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体，其在RL阶段仅在推理数据上进行训练，并减少了长度惩罚以允许模型输出更长的响应，这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色，在数学基准测试中获得了金牌级的表现，同时在训练时也考虑到了工具的使用，在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性，例如在AIME 2025基准上达到96.0，在HMMT Feb 2025基准上达到99.2，但同时也生成了更多的Token[127]

VLA+RL还是纯强化？从200多篇工作中看强化学习的发展路线

具身智能之心· 2025-08-18 08:07

视觉强化学习综述核心观点 - 该综述对视觉强化学习（VRL）领域进行系统性梳理，整合200+篇研究成果，提出四大主题支柱：多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型，并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用，包括跨模态对齐、长序列优化及可验证奖励设计，同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架强化学习范式 - **RLHF（基于人类反馈的强化学习）**：通过三元组偏好数据训练奖励模型，结合PPO优化策略，三阶段流程（监督预训练→奖励建模→策略优化）成为主流 [10] - **DPO（直接偏好优化）**：绕过奖励建模环节，直接通过封闭式监督目标优化策略，降低计算成本 [11] - **RLVR（带可验证奖励的强化学习）**：用确定性验证信号（如代码测试结果）替代人类偏好，提升客观性 [12] 策略优化算法 - **PPO（近端策略优化）**：通过重要性采样和广义优势估计实现稳定策略更新，依赖精确奖励模型 [15] - **GRPO（群体相对策略优化）**：利用群体归一化优势信号替代价值网络，降低内存消耗并提升训练稳定性 [16] 应用领域多模态大型语言模型 - **传统方法**：通过GRPO/PPO将视觉-语言模型与可验证奖励对齐，如RePIC、GoalLadder等 [17] - **空间感知**：2D任务（目标检测、分割）和3D任务（布局推理）均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**：分层奖励设计（如VQ-Insight）和时间衰减回报（如TW-GRPO）解决长序列挑战 [20] 视觉生成 - **图像生成**：DiffPPO等结合扩散模型与感知奖励（如ImageReward），提升生成质量 [21] - **3D生成**：DreamCS等通过渲染-比较循环优化几何结构，强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**：规则驱动奖励（如GUI-R1）和群体归一化更新（如UIShift）推动跨平台交互 [28] - **视觉导航**：OctoNav-R1等结合第一人称视觉与低级动作控制，通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**：结合外部基准（如MME）、人类偏好奖励和KL散度监控 [35] - **视觉生成**：FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**：在线成功率与逐步奖励设计（如Mind2web）平衡稀疏信号问题 [39] 未来方向 - **自适应推理**：通过终止评论者动态平衡深度与效率 [43] - **长视野优化**：子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**：需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]