视频大型语言模型(Video LLMs)研究进展 - 视频大型语言模型展现出精准描述视频内容、回答相关问题的能力,接近人类级理解力[1] - 核心争议在于模型是否真正"理解"视频内容,还是仅进行高级"模式匹配"[2] - 南洋理工大学S-Lab团队提出Video Thinking Test(Video-TT)基准测试,旨在分离"看"与"想"的能力,精准测量AI的真实理解和推理水平[3] Video-TT测试设计原理 - 现有视频理解基准测试存在根本缺陷:无法区分模型因"没看清"或"没想明白"而犯错[9] - 传统长视频评测存在"帧采样悖论":模型因计算资源限制只能稀疏采样,性能下降可能反映采样策略失败而非理解能力不足[12][13] - 传统短视频评测存在"天花板幻觉":模型因能看完所有帧表现接近人类,但实际仍缺乏深度推理能力[15][16] - Video-TT创新点:选用1000条YouTube短视频,统一80帧采样,确保评测焦点从"采样效率"转向"理解深度"[16] 测试维度与问题设计 - 构建视觉复杂度(Visual Complexity)和叙事复杂度(Narrative Complexity)两大核心维度[18] - 视觉复杂度包含:模糊与非常规内容、运动速度、时空布局、视错觉四个子维度[19] - 叙事复杂度包含:复杂情节、叙事剪辑、技术性剪辑、世界知识四个子维度[19] - 问题设计强调激发"思考",需依赖上下文、原因和场景进行推理,例如需要世界知识回答"视频中的女士在模仿什么行为"[17][22] 模型性能评测结果 - 人类基准表现:正确性84.3%,鲁棒性64.4%,显著领先所有AI模型[29] - GPT-4o作为SOTA模型,正确率仅36.6%(不足人类一半),鲁棒性36.0%[30] - 开源模型在开放式问题上与GPT-4o差距显著,显示现有基准测试可能因侧重选择题高估模型能力[31] - 主要错误集中在复杂情节(Complex Plot)和世界知识(World Knowledge)相关任务[34] AI模型核心弱点分析 - 时空混淆:难以处理物体计数(如动态相框追踪)和序列定位(如多事件场景排序)[36][37] - 常识缺失:无法理解角色动机与情感(如银牌得主的失望情绪)等社会心理知识[38][39] - 复杂情节理解失败:难以建立跨场景因果关系(如棒球破坏房屋导致押金扣除的推理)[40][41] 研究团队与数据资源 - 主要作者包括南洋理工大学博士生张元瀚、董宇昊,通讯作者为助理教授刘子纬[6] - 论文与数据集已公开:论文链接(arXiv:2507.15028)、Hugging Face数据集、项目主页[42]
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位·2025-08-01 15:19