token层次的重要性加权

搜索文档
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
随着多模态大语言模型( MLLMs)的快速发展, 其在视频推理等前沿任务中快速进化,不断突破性能天花 板。而 强化学习( RL)作为推动这场技术革命的关键引擎,为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化,让模型推理能力实现质的飞跃;VideoR1引入T-GRPO,赋予模型拆解视频 时空逻辑的 "透视眼";VideoChat-R1借助基于 GRPO 的多任务联合微调,让模型在视频理解与多步推理 上表现得更加 "聪明伶俐",相关成果不断涌现…… 尽管 基 RL驱动的优化在指标提升上成绩亮眼, 但 在面对复杂多模态任务时,依然存在两大拦路虎: 一方 面,思维链推理应用到多模态时 "水土不服",不仅产出的推理过程冗长没重点,训练目标还常忽略关键时空 线索,拖慢学习效率;另一方面,现有依赖单选题问答的稀疏二元奖励信号太" 简单 粗暴 ",只认可全对答 案,埋没部分正确内容。不过幸运的是,视频定位研究已证实,软奖励信号能稳定学习过程、提升精度 。 ▍提出TW-GRPO框架:革新加权机制与奖励设计 面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战,来自 中山大学、兰州大学、合 ...