视频推理

搜索文档
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源
量子位· 2025-05-29 15:19
视频推理新基准Video-Holmes - 腾讯ARC Lab与香港城市大学联合推出Video-Holmes基准测试,专为评估多模态大模型在复杂视频推理能力而设计,通过"推理杀人凶手"等高难度任务挑战模型极限 [1] - 该基准规避了现有测试中视频源和问题过于简单的痛点,要求模型主动关联分散在多段视频中的线索进行逻辑推理,例如需发现"过度使用超能力"这一非常规死因 [1][2] - 测试包含7类高推理要求的单选题:社会推理(SR)、意图与动机链(IMC)、时间因果推理(TCI)、时间线分析(TA)、多模态提示推理(MHR)、物理异常推理(PAR)、核心主题推理(CTI) [5][12] 大模型测试表现 - 参测20个主流大模型全部不及格,Gemini-2.5-Pro以平均分51.3位列第一,GPT-4以42分排名第六,Qwen2.5-Omni-7B以16.4分垫底 [6] - 细分领域表现最佳单项为Gemini-1.5-Pro的社会推理(SR)59.6分,最弱项为InternVL2.5-8B的时间线分析(TA)仅7.6分 [6] - 基准验证了推理模型与非推理版本的性能差距:Gemini-2.0-Thinking比Gemini-2.0提升12个点,SEED-Bench-R1比Qwen2.5-VL-7B高5个点 [18] 基准设计方法论 - 数据集包含270部1-5分钟人工标注的"推理短电影",问题由DeepSeek生成并评估,强制模型串联分散线索推导真相 [9][10] - 问题设计突破传统显式提示模式,模拟人类主动搜索整合多线索的复杂推理过程,例如需正确解析"小丑与David实为陌生人"而非敌对关系 [8][16] - 现有模型主要缺陷集中在线索串联能力不足(推理能力欠缺)和关键视觉信息遗漏,尽管多数能正确感知基础视觉信息 [18] 技术实现与开源 - 提供完整开源方案包括标注数据、构建代码、测试流程及论文,支持GitHub/HuggingFace一键下载评估 [19][21] - 评估工具链支持QwenVL/InternVL/Gemini等主流模型,允许通过prepare_your_model和generate_your_model函数定制模型 [19] - 提供推理过程分析工具,需调用DeepSeek API密钥运行evaluate_reasoning.py脚本,支持生成带注释视频的问题集 [20]