Workflow
软奖励
icon
搜索文档
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
量子位· 2025-04-02 15:40
大模型强化学习扩展至多学科领域 - 腾讯与苏州大学团队提出RLVR框架 将强化学习训练从数学/代码扩展到医学、化学、法律、心理学、经济学等多学科领域 [3][4] - 传统基于二元规则的奖励在结构化数据领域有效 但难以适应非结构化学科 RLVR采用基于生成模型的软奖励 显著提升泛化能力和稳健性 [4][18] - 开源7B参数奖励模型及多学科数据集 促进相关研究发展 [5] 技术实现路径 - 发现大语言模型对客观参考答案的二元判断具有高度一致性 可直接作为验证器使用 无需为每个领域单独训练大规模奖励模型 [7][8] - 通过72B参数的Qwen2 5-Instruct蒸馏出7B奖励模型 训练过程无需领域标注 完全依赖在线探索数据 [9] - 引入基于置信度的软评分机制 相比二元硬标签(0/1)能更灵活处理复杂判断场景 [9][18] 实验验证结果 - 在6000个跨学科问题测试中 RM-7B模型在自由形式答案任务表现最优 数学领域平均得分62 5(软奖励) 多学科平均31 2 [14][15] - 软奖励在多学科任务中全面优于二元奖励 如社会科学领域得分提升至32 8(软) vs 29 1(二元) [15] - 数据量扩展性验证显示 RM-7B在100k数据规模时数学得分达65 0 多学科35 0 显著优于基于规则的方法(51 7和16 9) [16] 方法论创新与局限 - 突破传统强化学习依赖结构化数据的限制 实现非标准化参考答案的语义等价性评估 [17] - 未使用思维链推理(CoT) 对中间步骤奖励分配机制仍存研究空间 [16] - 不设格式约束降低数据标准化成本 但格式相关奖励的作用需进一步验证 [17]