GRPO - 财报，业绩电话会，研报，新闻

GRPO

搜索文档

6大基准全面碾压！TW-GRPO刷新视频推理天花板，CLEVRER准确率突破50.4%！

机器人大讲堂· 2025-07-06 13:23

多模态大语言模型（MLLMs）与强化学习（RL）的融合 - 多模态大语言模型在视频推理等任务中快速进化，强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃，VideoR1引入T-GRPO增强视频时空逻辑拆解能力，VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出，通过聚焦思维和密集奖励粒度增强视觉推理，解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容，规避冗余干扰，提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务，结合视频定位IoU软奖励机制，对部分正确答案给予梯度反馈，改善训练稳定性 [5][9] - 问答反转（QAI）技术通过否定问题与反转答案扩充多选训练数据，解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中，TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中，TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率，较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快，输出序列长度缩短17%-23%，验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异，通过最小-最大归一化与超参数α控制权重缩放，实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制，依据预测与真实答案重叠度赋予分数，显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型，使用NVIDIA H800 GPU处理128×28×28分辨率视频帧，推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中，TW-GRPO精准提取视频关键数值并正确应用阿基米德原理，而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心· 2025-06-22 12:26

选自 unsloth.ai 作者：Unsloth Team 强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。近日，Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth（用于微调模型的同名开源项目 GitHub 星数已超过 4 万）发布了一个强化学习教程，其中从吃豆人谈起，简单易懂地从 RLHF、PPO 介绍到 GRPO，还分享了如何用 GRPO 训练推理模型的技巧。全面了解强化学习以及如何使用 GRPO 训练你自己的推理模型。这是一份从初学者到高级的完整指南。你将学到什么本文涵盖了你需要了解的关于 GRPO、强化学习 (RL) 和奖励函数的所有内容 —— 从初学者到高级，还有基于 Unsloth 使用 GRPO 的基础知识。如果你正需要学习如何一步步实现 GRPO，这份指南值得一读。 ❓什么是强化学习 (RL)？强化学习的目标是：就这么简单！「好」和「坏」的含义错综复杂，「增加」和「降低」也许斟酌，甚至「结果」的含义也各不 ...

Artificial Intelligence

Artificial Intelligence

ChatGPT

奖励是假的，能让Qwen提升25%性能却是真的！

量子位· 2025-05-29 09:08

RLVR技术突破 - 使用虚假奖励信号进行RLVR训练仍能显著提升Qwen模型性能在MATH-500基准上绝对准确率提升约25% 与真实奖励效果仅相差几个百分点[1][3][18] - 虚假奖励类型包括错误标签奖励（提升24.6%）、随机奖励（提升21.4%）和格式奖励均能激发模型推理能力提升[18][20] - 该现象颠覆传统认知表明RLVR性能提升可能独立于奖励信号正确性而是通过激活预训练中的潜在推理能力实现[4][12] Qwen模型特异性表现 - 虚假奖励增益仅见于Qwen2 5-Math系列模型其他模型如Llama、OLMo2-7B性能无变化或下降[19][24] - Qwen2 5-Math-7B独特依赖代码推理策略 65%回答包含Python代码片段虚假奖励RLVR可将其频率提升至90%[23][27] - 模型差异源于预训练策略 Qwen的代码推理行为与答案准确率正相关但该模式在其他模型中可能损害性能[23][25] 实验设计与机制分析 - 团队设计五类奖励函数梯度测试包括真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励形成监督强度递减序列[20] - GRPO方法裁剪偏差可能诱导随机奖励产生有益训练信号增加代码推理行为[28] - 研究推测错误推理+正确答案或正确推理+错误答案的组合可能在其他模型中复制类似增益[32] 行业影响与研究方向 - 现有RLVR研究需扩展至非Qwen模型验证避免单一模型优化带来的局限性[33] - 技术社区反应强烈建议RLVR研究员重新评估围绕奖励函数构建的研究路径[6] - 项目由华盛顿大学NLP团队主导开源代码与论文提供完整实验复现路径[34]

RLVR（可验证奖励强化学习）

代码推理

GRPO的裁剪偏差

Artificial Intelligence

Artificial Intelligence

Qwen

Qwen2.5-Math

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

机器之心· 2025-05-24 11:13

核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点，重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门，但GRPO并非特殊算法，与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值，强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型，采用强化学习训练，论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架，无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性，采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样，后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好，但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用，使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法，包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括：两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵（探索/随机性） [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态，使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法，调整token优势分配方式 [80] - 移除问题级难度偏置，避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似，GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用，提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高，但小模型通过优化也能达到相当效果 [29][31]