GRPO

搜索文档
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
DeepSeek给王一博道歉被当真,年度AI幻觉/马斯克Grok 4跑分曝光/华为盘古团队回应模型争议|Hunt Good周报
搜狐财经· 2025-07-06 11:35
Grok-4模型性能曝光 - Grok-4在HLE评估中基础得分35%,开启推理功能后提升至45%,显著领先OpenAI o3和Google Gemini系列[1] - 在GPQA测试中得分达87%-88%,代码能力评测SWE Bench得分72%-75%[2] - 新版本支持多模态输入、130k token上下文、结构化输出、数学推理和函数调用等功能[3] - Grok 4 Code将深度集成在Cursor编辑器,具备智能补全、调试和执行功能[3] 华为盘古模型开源争议 - 华为开源盘古7B稠密模型及72B混合专家模型,被质疑与阿里云通义千问Qwen-2.5 14B高度相似[4] - 华为声明盘古Pro MoE模型基于昇腾硬件平台独立开发,采用创新MoGE架构解决分布式训练负载均衡难题[5] - 承认部分基础组件代码参考业界开源实践,但严格遵循开源许可证要求[5] Cluely公司ARR快速增长 - AI面试辅助工具Cluely企业版推出后ARR一周内翻番至700万美元[7] - 产品实时分析用户在线对话生成隐蔽提示,应用于销售、客服和远程教学等场景[7] - 面临免费开源竞品Glass的挑战,增长持续性存疑[9] 特斯拉Optimus项目调整 - 暂停人形机器人零部件采购进行设计调整,预计耗时2个月[10] - 硬件存在关节电机过热、灵巧手负载低等问题,软件计划增加合成数据训练[12] - 原计划年产5000台目标恐难达成,目前仅完成约1000台[13] 百度搜索重大升级 - 搜索框升级为"智能框",支持超1000字文本输入和多模态交互[16] - 集成文心大模型和视频生成技术,可快速生成电影级短视频[17] AI基础设施投资热潮 - Amazon新建1200英亩数据中心与Anthropic合作,目标训练全球最大AI系统[21] - Oracle通过去中心化策略建立高效AI云基础设施[21] - 行业预计新建数据中心总投资超3200亿美元,年耗电量相当于百万家庭需求[23] Meta成立超级智能实验室 - 整合FAIR、大语言模型开发和AI产品团队,由Scale AI前CEO Alexandr Wang领导[24] - 吸引多位来自OpenAI、DeepMind和Anthropic的核心人才加入[26] - 计划未来几年投入数千亿美元发展AI基础设施和模型研发[26] 开源模型进展 - 百度文心4.5系列开源10款模型,包含47B和3B MoE模型及0.3B稠密模型[30] - 苹果开源DiffuCoder-7B-cpGRPO代码生成模型,EvalPlus基准性能提升4.4%[36] - B站开源AniSora V3动画视频生成模型,支持多种风格一键生成[34]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 20:41
作者 | 瀑风 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1916810989434807458 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『VLA』技术交流群 本文只做学术分享,如有侵权,联系删文 2025年5月,VLA的RL领域掀起了一股热潮,不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上, 而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。 早期探索:iRe-VLA (Improving Vision-Language-Action Model with Online Reinforcement Learning) ★ https://arxiv.org/pdf/2501.16664 arxiv.org/pdf/2501.16664 这篇文章的核心算法是PPO,并且针对在线强化学习不稳定的问题提出了双阶段的训练范式: 具体实现上,此文没有采用已有的VLA模型结构,而是将BLIP-2 3B用于VLM backb ...
华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了
量子位· 2025-05-29 15:19
核心观点 - 华为提出的S-GRPO方法通过"串行分组+衰减奖励"设计,在保证推理准确性的前提下实现60%的推理提速,并生成更精确的答案[2] - S-GRPO突破传统思维链的"冗余思考"瓶颈,成为首个在Qwen3上有效的高效推理方法[1] - 该方法通过"早退推理"概念和指数衰减奖励机制,使模型学会在思考充分后隐式提前退出[8][10] 技术原理 - 采用"序列分组衰减奖励策略优化",对单条完整推理路径进行分段截断生成多个早退推理分支[4][8] - 通过指数衰减奖励机制:越早退出且答案正确获得的奖励越高,错误答案奖励为0[10][20] - 训练框架分为三阶段:完整推理展开、早退推理展开、奖励计算与参数更新[11][13][14][16] 性能表现 - 在5个推理benchmark测试中,S-GRPO平均提高0.72-6.08个点准确率的同时降低35.4%-61.1%生成长度[24] - 在Qwen3-14B模型上取得85.8%整体准确率,相比基线提高1.14个点,同时减少40.4%token生成量[23] - 在困难问题和简单问题上均能有效降低思考长度并维持精确度,显著优于DEER和GRPO等方法[26][27] 创新优势 - 相比传统GRPO的并行路径生成,S-GRPO充分利用中间信息提升效率[5][6] - 相比硬截断方法,S-GRPO使用不到一半的思考budget即可获得正确结论[38] - 通过消融实验验证衰减奖励和串行分组设计的必要性,移除任一组件都会导致性能下降[35][36] 应用前景 - 适合作为训练后优化范式的最后一步,在不损害原有推理能力前提下提升效率[2] - 在不同生成长度预算下都表现出色,低预算时准确率增益更显著[33] - 在域内数学推理和域外科推任务上均展现鲁棒性,证明方法普适性[24]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 11:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。 R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。 现在,我们推出名为 DanceGRPO 的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美 学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。 论文标题: DanceGRPO: Unleashing GRPO on Visual Generation arXiv 链接:https://arxiv.org/pdf/2505.07818 动机 在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的 ...
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 15:08
核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难,在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作,显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%,超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换:将确定性 ODE 转换为随机 SDE,为 RL 提供探索空间 [8][9] - 去噪步数减负:训练时减少生成步数(40 步减到 10 步),推理时保持完整步数,提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升:GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误:视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步,图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]