视频推理界的“福尔摩斯测试”：所有大模型，统统不及格

视频推理新基准Video-Holmes - 腾讯ARC Lab与香港城市大学联合推出Video-Holmes基准测试，专为评估多模态大模型在复杂视频推理能力而设计，通过"推理杀人凶手"等高难度任务挑战模型极限 [1] - 该基准规避了现有测试中视频源和问题过于简单的痛点，要求模型主动关联分散在多段视频中的线索进行逻辑推理，例如需发现"过度使用超能力"这一非常规死因 [1][2] - 测试包含7类高推理要求的单选题：社会推理(SR)、意图与动机链(IMC)、时间因果推理(TCI)、时间线分析(TA)、多模态提示推理(MHR)、物理异常推理(PAR)、核心主题推理(CTI) [5][12] 大模型测试表现 - 参测20个主流大模型全部不及格，Gemini-2.5-Pro以平均分51.3位列第一，GPT-4以42分排名第六，Qwen2.5-Omni-7B以16.4分垫底 [6] - 细分领域表现最佳单项为Gemini-1.5-Pro的社会推理(SR)59.6分，最弱项为InternVL2.5-8B的时间线分析(TA)仅7.6分 [6] - 基准验证了推理模型与非推理版本的性能差距：Gemini-2.0-Thinking比Gemini-2.0提升12个点，SEED-Bench-R1比Qwen2.5-VL-7B高5个点 [18] 基准设计方法论 - 数据集包含270部1-5分钟人工标注的"推理短电影"，问题由DeepSeek生成并评估，强制模型串联分散线索推导真相 [9][10] - 问题设计突破传统显式提示模式，模拟人类主动搜索整合多线索的复杂推理过程，例如需正确解析"小丑与David实为陌生人"而非敌对关系 [8][16] - 现有模型主要缺陷集中在线索串联能力不足（推理能力欠缺）和关键视觉信息遗漏，尽管多数能正确感知基础视觉信息 [18] 技术实现与开源 - 提供完整开源方案包括标注数据、构建代码、测试流程及论文，支持GitHub/HuggingFace一键下载评估 [19][21] - 评估工具链支持QwenVL/InternVL/Gemini等主流模型，允许通过prepare_your_model和generate_your_model函数定制模型 [19] - 提供推理过程分析工具，需调用DeepSeek API密钥运行evaluate_reasoning.py脚本，支持生成带注释视频的问题集 [20]