token层次的重要性加权 - 财报，业绩电话会，研报，新闻

token层次的重要性加权

搜索文档

6大基准全面碾压！TW-GRPO刷新视频推理天花板，CLEVRER准确率突破50.4%！

机器人大讲堂· 2025-07-06 13:23

多模态大语言模型（MLLMs）与强化学习（RL）的融合 - 多模态大语言模型在视频推理等任务中快速进化，强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃，VideoR1引入T-GRPO增强视频时空逻辑拆解能力，VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出，通过聚焦思维和密集奖励粒度增强视觉推理，解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容，规避冗余干扰，提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务，结合视频定位IoU软奖励机制，对部分正确答案给予梯度反馈，改善训练稳定性 [5][9] - 问答反转（QAI）技术通过否定问题与反转答案扩充多选训练数据，解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中，TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中，TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率，较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快，输出序列长度缩短17%-23%，验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异，通过最小-最大归一化与超参数α控制权重缩放，实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制，依据预测与真实答案重叠度赋予分数，显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型，使用NVIDIA H800 GPU处理128×28×28分辨率视频帧，推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中，TW-GRPO精准提取视频关键数值并正确应用阿基米德原理，而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]