视频大型语言模型

搜索文档
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位· 2025-08-01 15:19
Video-TT团队 投稿 量子位 | 公众号 QbitAI 视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解 力。 但有一个非常本质的问题始终萦绕着研究者的心头: 这些模型是真的"理解"了视频,还是仅仅在进行一种高级的"模式匹配"? 为了解决上述问题,来自南洋理工大学S-Lab的研究者们提出了一个全新的、极具挑战性的基准测试—— Video Thinking Test(简称 Video-TT) 。 其核心目标简单而深刻:将"看"与"想"的能力分离,精准测量AI在视频内容上的真实理解和推理水平。 研究团队有三项关键发现: (1)人类在视频理解的"准确率"和"鲁棒性"上远超SOTA级模型(50%),差距显著。 Video-TT的问题定位 (2)开源模型在"鲁棒性"上远逊GPT-4o(SOTA模型之一)。 (3)GPT-4o的短板在于:对模糊或非常规内容识别能力弱;对多场景区分、定位、计算能力有困难;世界知识对应能力欠缺,无法理解意 图、社会动态等深层信息。 Video-TT图灵测试集由南洋理工大学S-Lab科研团队联合独立研究员 ...